﻿<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" >
<html>
<head>
    <TITLE>有参转录组有参生物信息分析结题报告 </TITLE>
    <META NAME="Modified" CONTENT="mengfanrui@novogene.cn">
    <META NAME="Version" CONTENT="2014820v2.0">
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <!-- <link rel="stylesheet" type="text/css" href="css/text.css"> -->
    <link rel="StyleSheet" href="js/tree/tree.css" type="text/css">
    <link rel="stylesheet" type="text/css" href="js/fancybox/jquery.fancybox-1.3.4.css" media="screen"/>
    <link rel="stylesheet" href="css/style.css"/>
    <link rel="stylesheet" href="css/base.css"/>
    <script src="js/jquery-1.4.2.min.js" type="text/javascript"></script>
    <script src="js/scrollTop.js" type="text/javascript"></script>
    <script src="js/common.js" type="text/javascript"></script>
    <script src="js/jquery.albumSlider.min.js" type="text/javascript"></script>
    <script type="text/javascript" src="js/tree/tree.js"></script>
    <script type="text/javascript" src="js/fancybox/jquery.mousewheel-3.0.4.pack.js"></script>
    <script type="text/javascript" src="js/fancybox/jquery.fancybox-1.3.4.pack.js"></script>

    <style media="print">
        .noprint {
            DISPLAY: none;
        }
    </style>
    <script type="text/javascript">
        var Tree = new Array;
        // nodeId | parentNodeId | nodeName | nodeUrl
        <
        {
            jtree
        }
        >
    </script>
</head>

<body>

<table width="100%" height="105px" border="0" cellpadding="5" cellspacing="0" style="background: #F3F3F3  ;
			border-bottom: 1px solid #eee;
			background-image: -moz-linear-gradient(top, #EEEEEE, #FFFFFF);
			background-image: -webkit-gradient(linear, left top, left bottom, color-stop(0, #EEEEEE), color-stop(1, #FFFFFF));
			filter: progid:DXImageTransform.Microsoft.gradient(startColorstr='#EEEEEE', endColorstr='#FFFFFF', GradientType='0')">
    <tr height="86%">
        <td width='1%'></td>
        <td><img src="@{
					path
				}images/logo.png" width="160" height="40"></td>
        <td ><div style="border-left: 1px solid #DCDCDC;
					height: 30px"></div></td>
        <td width="30%" style="text-decoration: none;
					color: black;
					font-size: 14px;
					font-weight: 50;">
            提供领先的代谢组学解决方案 </br>Providing advanced metabolomics solutions

        </td>
        <td width="20%"></td>
        <td width="15%"></td>
        <td width="25%" style="text-align: right;
					padding: 0px;
					margin: 0px;
					font-size: 14px;
					font-weight: 50;">
            服务电话:400-867-2686<br><a href="mailto:marketing@@metaboprofile.com" target="black" style="text-decoration: none;
					color: black;
					font-size: 14px;
					font-weight: 50;">
            Email: marketing@@metaboprofile.com<a></td>
        <td width="1%"></td>
    </tr>
    <tr height="14%"><td class="nav" colspan="2"><b>
        代谢组：</b></td><td class="nav" colspan="4" style="text-align: center"><b>代谢组分析结题报告</b>
        &nbsp;</td><td style="text-align: right;
				padding: 10px">
        结题报告：<a href="../NH140525_jiacan.pdf" title="点击打开" target="_blank" style="text-decoration: none; ">
        PDF</a></td></tr>
</table>


<div class="mulu" style="width:14.5%;float:left;position:fixed;left:7px;border-style:outset">
    <center>
        <a href="javascript:void(0);" id="zhankai"><b>展开目录</b></a><a href="javascript:void(0);" id="kaiguan"><b> << </b></a>
    </center>
</div>
<div id="left"
     style="width:16%;float:left;position:fixed;top:60px;overflow-y:auto;overflow-x:hidden;height:380px;display:block;left:7px">
    <div class="title"><a href="javascript:void(0)" class="shouqi" id="library_1"><b>+</b></a><a
            href="javascript:void(0)" class="shouqi_2"
            onclick="$('html,body').animate({scrollTop:$('#建库测序流程').offset().top}, 100);return false;">建库测序流程</a></div>
    <div class="lanmu-content" style="display:none">
        <dl class="lanmu-list">
            <dd><a href="#建库测序流程" id="library_seq">建库测序流程</a></dd>
        </dl>
    </div>
    <div class="title"><a href="javascript:void(0)" class="shouqi" id="analyses_2"><b>+</b></a><a
            href="javascript:void(0)" class="shouqi_2"
            onclick="$('html,body').animate({scrollTop:$('#生物信息分析流程').offset().top}, 100);return false;">生物信息分析流程</a>
    </div>
    <div class="lanmu-content" style="display:none">
        <dl class="lanmu-list">
            <dd><a href='#生物信息分析流程' id="analyses_pip">生物信息分析流程</a></dd>
        </dl>
    </div>
    <div class="title"><a href="javascript:void(0)" class="shouqi" id="result_3"><b>+</b></a><a
            href="javascript:void(0)" class="shouqi_2"
            onclick="$('html,body').animate({scrollTop:$('#结果展示及说明').offset().top}, 100);return false;">结果展示及说明</a>
    </div>
    <div class="lanmu-content" style="display:none">
        <dl class="lanmu-list">

            <dd><a href="#原始序列数据" id="raw_data">原始序列数据</a></dd>
            <dd><a href="#测序数据质量评估" id="QC">测序数据质量评估</a></dd>


            <dd><a href="#参考序列比对分析" id="tophat">参考序列比对分析</a></dd>


            <dd><a href="#可变剪切分析" id="AS">可变剪切分析</a></dd>


            <dd><a href="#新转录本预测" id="Novel">新转录本预测</a></dd>


            <dd><a href="#SNP和InDel分析" id="SNP">SNP和InDel分析</a></dd>


            <dd><a href="#基因表达水平分析" id="gene_express">基因表达水平分析</a></dd>


            <dd><a href="#RNA-seq整体质量评估" id="RNA-seq_QC">RNA-seq整体质量评估</a></dd>


            <dd><a href="#差异表达分析" id="diff">差异表达分析</a></dd>


            <dd><a href="#差异基因GO富集分析" id="diff_GO">差异基因GO富集分析</a></dd>


            <dd><a href="#差异基因KEGG富集分析" id="diff_KEGG">差异基因KEGG富集分析</a></dd>


            <dd><a href="#蛋白互作网络分析" id="PPI">蛋白互作网络分析</a></dd>


        </dl>
    </div>
    <div class="title"><a href="javascript:void(0)" class="shouqi"><b>+</b></a><a href="javascript:void(0)"
                                                                                  class="shouqi_2"
                                                                                  onclick="$('html,body').animate({scrollTop:$('#备注').offset().top}, 100);return false;">备注</a>
    </div>
    <div class="lanmu-content" style="display:none">
        <dl class="lanmu-list">
            <dd><a href='#文件目录列表' id="file_dir">文件目录列表</a></dd>
            <dd><a href='#软件列表' id="soft_list">软件列表</a></dd>
            <dd><a href='#Methods英文版' id="methods_en">Methods英文版</a></dd>
            <dd><a href='#NovoQuery软件使用说明PDF版' id="novofinder">NovoFinder软件</a></dd>
            <dd><a href="#结果文件使用说明" id="result_file_note">结果文件使用说明</a></dd>
        </dl>
    </div>
    <div class="title"><a href="javascript:void(0)" class="shouqi"><b>+</b></a><a href="javascript:void(0)"
                                                                                  class="shouqi_2"
                                                                                  onclick="$('html,body').animate({scrollTop:$('#参考文献').offset().top}, 100);return false;">参考文献</a>
    </div>
    <div class="lanmu-content" style="display:none">
        <dl class="lanmu-list">
            <dd><a href='#参考文献' id="reference">参考文献</a></dd>
        </dl>
    </div>


</div>
<!-------------------------------------------left--------------------------------------------->
<div id="main" style="width:78%;float:right;position:absolute;right:35px;overflow-y:hidden;overflow-x:hidden;">
    <!----------------------------------------建库测序流程----------------------------------------->
    <div id="page">
        <p class="head">
            <a href="#home" title="返回首页">
                <img class="logo" align="left" src="images/logo.png"/>
            </a>
            <a>北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p>
        <br/>
        <h2 id="1"><a id="建库测序流程">一、建库测序流程</a></h2>
        <p class="paragraph">
            从RNA样品到最终数据获得，样品检测、建库、测序每一个环节都会对数据质量和数量产生影响，而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性，诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控，从根本上确保了高质量数据的产出。流程图如下：</p>
        <p class="center">

            <img class="normal2" src="images/sequence_pipeline.png"/>

        </p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="Total RNA样品检测">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <h3>1 Total RNA样品检测</h3>
        <p class="paragraph">诺禾致源对RNA样品的检测主要包括4种方法：</p>
        <p class="paragraph">(1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染</p>
        <p class="paragraph">(2) Nanodrop检测RNA的纯度（OD260/280比值）</p>
        <p class="paragraph">(3) Qubit对RNA浓度进行精确定量</p>
        <p class="paragraph">(4) Agilent 2100精确检测RNA的完整性</p>
        </p>
        <a name="文库构建"></a>
        <h3>2 文库构建</h3>
        <p class="paragraph">样品检测合格后，用带有Oligo（dT）的磁珠富集真核生物mRNA（若为原核生物，则通过试剂盒去除rRNA来富集mRNA）。随后加入fragmentation
            buffer将mRNA打断成短片段，以mRNA为模板，用六碱基随机引物（random hexamers）合成一链cDNA，然后加入缓冲液、dNTPs和DNA polymerase
            I合成二链cDNA，随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头，然后用AMPure XP
            beads进行片段大小选择，最后进行PCR富集得到最终的cDNA文库。构建原理图如下：</p>
        <p class="center">

            <img class="normal4" src="images/library_pipeline.png"/>

        </p>
        <a name="库检"></a>
        <h3>3 库检</h3>
        <p class="paragraph">文库构建完成后，先使用Qubit2.0进行初步定量，稀释文库至1ng/ul，随后使用Agilent 2100对文库的insert size进行检测，insert
            size符合预期后，使用Q-PCR方法对文库的有效浓度进行准确定量（文库有效浓度 ＞2nM），以保证文库质量。</p>
        </p>
        <a name="上机测序"></a>
        <h3>4 上机测序</h3>
        <p class="paragraph">库检合格后，把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。</p>
    </div>


    <!----------------------------------------生物信息分析流程----------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a>北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h2 id="2"><a id="生物信息分析流程">二、生物信息分析流程</a></h2>
        <p class="paragraph">获得原始测序序列(Sequenced Reads)后，在有相关物种参考序列或参考基因组的情况下，通过如下流程进行生物信息分析：</p>
        <p class="center">

            <img class="small2" src="images/pipeline.png"/>


        <p class="paragraph">
            其中，DEU分析仅针对有生物学重复样品，若样品无生物学重复，则不进行此项分析。对于蛋白互作网络分析，若其存在于合同信息分析内容中，而且选择了相应的分析物种或者近缘物种，则进行此项分析；若不存在，则不进行。</p>
        </p>
    </div>


    <!-------------------------------------------- 原始序列数据 --------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a>北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <h2><a id="结果展示及说明">三、结果展示及说明</a></h2>

        <h3 id="3"><a name="原始序列数据">1　原始序列数据</a></h3>
        <p class="paragraph">高通量测序(如Illumina HiSeq<sup>TM</sup>2000/Miseq<sup>TM</sup>)得到的原始图像数据文件经CASAVA碱基识别(Base
            Calling)分析转化为原始测序序列（Sequenced Reads），我们称之为 Raw Data或Raw Reads，结果以 FASTQ
            (简称为fq)文件格式存储，其中包含测序序列（reads）的序列信息以及其对应的测序质量信息。</p>
        <p class="paragraph">FASTQ格式文件中每个read由四行描述，如下：</p>
        <p class="seq">
            @HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT&nbsp;&nbsp;&nbsp;<br/>
            NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT<br/>
            +<br/>
            #55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH<br/>
        </p>
        <p class="paragraph">其中第一行以“@”开头，随后为Illumina 测序标识别符(Sequence Identifiers)和描述文字(选择性部分)；</P>
        <p class="paragraph">第二行是碱基序列；</p>
        <p class="paragraph">第三行以“+”开头，随后为Illumina 测序标识别符(选择性部分)；</p>
        <p class="paragraph">第四行是对应碱基的测序质量，该行中每个字符对应的 ASCII 值减去 33，即为对应第二行碱基的测序质量值。</p>
        <p class="paragraph">Illumina测序标识符详细信息如下：</p>
        <table class="tf2">
            <tr>
                <td>HWI-ST1276</td>
                <td>Instrument – unique identifier of the sequencer</td>
            </tr>
            <tr>
                <td>71</td>
                <td>run number – Run number on instrument</td>
            </tr>
            <tr>
                <td>C1162ACXX</td>
                <td>FlowCell ID – ID of flowcell</td>
            </tr>
            <tr>
                <td>1</td>
                <td>LaneNumber – positive integer</td>
            </tr>
            <tr>
                <td>1101</td>
                <td>TileNumber – positive integer</td>
            </tr>
            <tr>
                <td>1208</td>
                <td>X – x coordinate of the spot. Integer which can be negative</td>
            </tr>
            <tr>
                <td>2458</td>
                <td>Y – y coordinate of the spot. Integer which can be negative</td>
            </tr>
            <tr>
                <td>1</td>
                <td>ReadNumber - 1 for single reads; 1 or 2 for paired ends</td>
            </tr>
            <tr>
                <td>N</td>
                <td>whether it is filtered - NB：Y if the read is filtered out, not in the delivered fastq file, N
                    otherwise
                </td>
            </tr>
            <tr>
                <td>0</td>
                <td>control number - 0 when none of the control bits are on, otherwise it is an even number</td>
            </tr>
            <tr>
                <td>CGATGT</td>
                <td>Illumina index sequences</td>
            </tr>
        </table>
    </div>
    <!----------------------------------------- 测序数据质量评估 -------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a>北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h3 id="4"><a name="测序数据质量评估">2　测序数据质量评估</a></h3>
        <h4>2.1　测序错误率分布检查</h4>
        <p class="paragraph">每个碱基测序错误率是通过测序Phred数值(Phred score, Q<sub>phred</sub>)通过公式1转化得到，而Phred 数值是在碱基识别(Base
            Calling)过程中通过一种概率模型计算得到，这种模型可以准确地预测碱基判别的错误率。Phred分值，不正确的碱基识别率，碱基正确识别率以及Q-score的对应关系如下表所显示：</p>
        <p class="name_table">illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系</p>
        <table class="tf1">
            <p class="center">
                <tr>
                    <th>Phred分值</th>
                    <th>不正确的碱基识别</th>
                    <th>碱基正确识别率</th>
                    <th>Q-sorce</th>
                </tr>
                <tr>
                    <td>10</td>
                    <td>1/10</td>
                    <td>90%</td>
                    <td>Q10</td>
                </tr>
                <tr>
                    <td>20</td>
                    <td>1/100</td>
                    <td>99%</td>
                    <td>Q20</td>
                </tr>
                <tr>
                    <td>30</td>
                    <td>1/1000</td>
                    <td>99.9%</td>
                    <td>Q30</td>
                </tr>
                <tr>
                    <td>40</td>
                    <td>1/10000</td>
                    <td>99.99%</td>
                    <td>Q40</td>
                </tr>
        </table>
        </p>

        <p class="paragraph">测序错误率与碱基质量有关，受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术，测序错误率分布具有两个特点：

            <br/>(1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高，这是由于测序过程中化学试剂的消耗导致的，并且为illumina高通量测序平台都具有的特征。<br/>
            (2)前6个碱基的位置也会发生较高的测序错误率，而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et
            al.)。<br/>


        </p>
        <p class="center">
        <div class="albumSlider">
            <div class="fullview"><img src='./pictures/WX1.error_rate_distribution.png'/></div>
            <div class="slider">
                <div class="button movebackward" title="向上滚动"></div>
                <div class="imglistwrap">
                    <ul class="imglist">

                        <li><a id="example2" href='./pictures/sample1.error_rate_distribution.png'><img
                                src='./pictures/sample1.error_rate_distribution.JPEG'/></a></li>

                        <li><a id="example2" href='./pictures/sample2.error_rate_distribution.png'><img
                                src='./pictures/sample2.error_rate_distribution.JPEG'/></a></li>


                    </ul>
                </div>
                <div class="button moveforward" title="向下滚动"></div>
            </div>
        </div>
        </p>
        <p class="name_fig">图1　测序错误率分布图</p>
        <p class="premark">横坐标为reads的碱基位置，纵坐标为单碱基错误率</p>

    </div>


    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="A/T/G/C 含量分布检查">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>2.2　A/T/G/C 含量分布检查</h4>
        <p class="paragraph">GC含量分布检查用于检测有无AT、GC 分离现象，而这种现象可能是测序或者建库所带来的，并且会影响后续的定量分析。</p>
        <p class="paragraph">在illumina测序平台的转录组测序中，反转录成cDNA时所用的6bp
            的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关，但会影响转录组测序的均一化程度(Hansen et
            al.)。除此之外，理论上普通文库的G和C碱基及A和T碱基含量每个测序循环上应分别相等，且整个测序过程稳定不变，呈水平线，而对于链特异性建库会出现GC分离的现象。对于DGE测序来说，由于随机引物扩增偏差等原因，常常会导致在测序得到的每个read前6-7个碱基有较大的波动，这种波动属于正常情况。</p>
        <p class="center">
        <div class="albumSlider">
            <div class="fullview"><img src='./pictures/WX1.GC_content_distribution.png'/></div>
            <div class="slider">
                <div class="button movebackward" title="向上滚动"></div>
                <div class="imglistwrap">
                    <ul class="imglist">

                        <li><a id="example2" href='./pictures/sample1.GC_content_distribution.png'><img
                                src='./pictures/sample1.GC_content_distribution.JPEG'/></a></li>

                        <li><a id="example2" href='./pictures/sample2.GC_content_distribution.png'><img
                                src='./pictures/sample2.GC_content_distribution.JPEG'/></a></li>


                    </ul>
                </div>
                <div class="button moveforward" title="向下滚动"></div>
            </div>
        </div>
        </p>
        <p class="name_fig">图2　GC含量分布图</p>
        <p class="premark">横坐标为reads的碱基位置，纵坐标为单碱基所占的比例；不同颜色代表不同的碱基类型</p>

    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="测序数据过滤">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>2.3　测序数据过滤</h4>
        <p class="paragraph">测序得到的原始测序序列，里面含有带接头的、低质量的reads，为了保证信息分析质量，必须对raw reads进行过滤，得到clean reads，后续分析都基于clean
            reads。</p>
        <p class="paragraph">数据处理的步骤如下：</p>
        <p class="paragraph">(1) 去除带接头(adapter)的reads；<br/>
        <p class="paragraph">(2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads；<br/>
        <p class="paragraph">(3) 去除低质量reads(质量值 sQ <= 5 的碱基数占整个 read 长度的 50％以上的 reads)。</p>
        <p class="paragraph">RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeq<sup>TM</sup> RNA and DNA Sample
            Prep Kits) 信息：</p>
        <p class="paragraph">RNA 5’ Adapter (RA5), part # 15013205：<br/>
        <p class="paragraph">5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’<br/>
        <p class="paragraph">RNA 3’ Adapter (RA3), part # 15013207：<br/>
        <p class="paragraph">5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC<u>(6位index)</u>ATCTCGTATGCCGTCTTCTGCTTG-3’</p>
        <p class="center">
        <div class="albumSlider">
            <div class="fullview"><img src='./pictures/sample1.raw_reads_classification.png'/></div>
            <div class="slider">
                <div class="button movebackward" title="向上滚动"></div>
                <div class="imglistwrap">
                    <ul class="imglist">

                        <li><a id="example2" href='./pictures/sample1.raw_reads_classification.png'><img
                                src='./pictures/sample1.raw_reads_classification.JPEG'/></a></li>

                        <li><a id="example2" href='./pictures/sample2.raw_reads_classification.png'><img
                                src='./pictures/sample2.raw_reads_classification.JPEG'/></a></li>

                    </ul>
                </div>
                <div class="button moveforward" title="向下滚动"></div>
            </div>
        </div>

        </p>
        <p class="name_fig">图2.3　原始数据组成</p>
        <p class="premark">不同颜色的比例分别代表不同成分比例</p>
        <p class="premark">(1)Adapter related：因有接头，过滤掉的 reads数及其占总 raw reads数的比例。</p>
        <p class="premark">(2)Containing N：因 N含量超过 10%，过滤掉的 reads数及其占总raw reads数的比例。</p>
        <p class="premark">(3)Low quality：因低质量，过滤掉的reads数及其占总raw reads数的比例。</p>
        <p class="premark">(4)Clean reads：最终得到的 clean reads 数及其占总 raw reads 数的比例。</p>
        </p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="测序数据质量情况汇总">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>2.4　测序数据质量情况汇总</h4>
        <p class="paragraph">样品测序产出数据质量评估情况详见<strong>表1</strong>。</p>
        <p class="name_table">表1　数据产出质量情况一览表</p>
        <table class="tf1">
            <tr>
                <th>Sample</th>
                <th>Raw Reads</th>
                <th>Clean reads</th>
                <th>Clean bases</th>
                <th>Error(%)</th>
                <th>Q20(%)</th>
                <th>Q30(%)</th>
                <th>GC(%)</th>
            </tr>
            <tr>
                <td>sample1_1</td>
                <td>20594409</td>
                <td>20132577</td>
                <td>2.52G</td>
                <td>0.03</td>
                <td>96.16</td>
                <td>92.32</td>
                <td>43.60</td>
            </tr>

            <tr>
                <td>sample1_2</td>
                <td>20594409</td>
                <td>20132577</td>
                <td>2.52G</td>
                <td>0.04</td>
                <td>93.57</td>
                <td>88.31</td>
                <td>43.56</td>
            </tr>

            <tr>
                <td>sample2_1</td>
                <td>22213754</td>
                <td>21739346</td>
                <td>2.72G</td>
                <td>0.03</td>
                <td>96.22</td>
                <td>92.38</td>
                <td>43.69</td>
            </tr>

            <tr>
                <td>sample2_2</td>
                <td>22213754</td>
                <td>21739346</td>
                <td>2.72G</td>
                <td>0.04</td>
                <td>93.90</td>
                <td>88.87</td>
                <td>43.65</td>
            </tr>
        </table>


        <p class="tremark">数据质量情况详细内容如下：</p>
        (1) Raw reads：统计原始序列数据，以四行为一个单位，统计每个文件的测序序列的个数。<br/>
        (2) Clean reads：计算方法同 Raw Reads，只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads。<br/>
        (3) Clean bases：Clean reads的个数乘以长度，并转化为以G为单位。<br/>
        (4) Error rate：通过公式1计算得到。<br/>
        (5) Q20、Q30：分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。<br/>
        (6) GC content：计算碱基G和C的数量总和占总的碱基数量的百分比。</p>
    </div>


    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="质量评估Q&A">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <div class="QA">
            <h4>2.5 质量评估Q&A </h4>
            <table width=100% align="center" cellspacing="0" cellpadding="8">
                <tr>
                    <td class="question"><b>问</b>：测序错误率会随着测序序列长度的增加而升高，错误率在多少是可以接受的范围？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：诺禾的测序会进行严格的数据质量把控。一般情况下，单个碱基位置的测序错误率应该低于1%，最高在6%左右可以接受。</td>
                </tr>
                <tr>
                    <td class="question"><b>问</b>：诺禾质控的标准是什么？是否严格？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：为保证后续分析的质量，诺禾会严格把控cleandata的筛选标准，具体标准如下：<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>(1)</b>
                        去除带接头(adapter)的reads；<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>(2)</b>
                        去除N(N表示无法确定碱基信息)的比例大于10%的reads；<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>(3) </b>去除低质量reads(质量值sQ
                        &lt= 5的碱基数占整个read的50％以上的reads)。
                    </td>
                </tr>
                <tr>
                    <td class="question"><b>相关名词解释</b>:</td>
                </tr>
                <tr>
                    <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>adapter</b>：接头，用于上机测序。建库时引入的接头序列与测序芯片（flow
                        cell）上固定的接头相互识别。
                    </td>
                </tr>
                <tr>
                    <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>index</b>：测序的标签，用于测定混合样本，通过每个样本添加的不同标签进行数据区分，鉴别测序样品。
                    </td>
                </tr>
                <tr>
                    <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>Q20,Q30</b>：Phred
                        数值大于20、30的碱基占总体碱基的百分比，其中Phred=-10log10(e).
                    </td>
                </tr>
                <tr>
                    <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>raw data/raw reads</b>：测序下机的原始数据。
                    </td>
                </tr>
                <tr>
                    <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>clean data/clean reads</b>：对原始数据进行过滤后，剔除了低质量数据的剩余数据。后续分析均基于clean
                        data。
                    </td>
                </tr>
            </table>
        </div>
    </div>


    <!----------------------------------------- 参考序列比对分析 -------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a>北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h3 id="5"><a name="参考序列比对分析">3　参考序列比对分析</a></h3>
        <p class="paragraph">
            测序序列定位算法：根据不同的基因组的特征，我们选取相对合适的软件(动植物用TopHat2、细菌或者基因密度较高的物种用Bowtie2,二者mismatch均设为2，其余选用默认参数)，合适的参数设置(如最大的内含子长度，会根据已知的该物种的基因模型来进行统计分析)，将过滤后的测序序列进行基因组定位分析。下图为TopHat2的算法示意图：</p>
        <p class="center">
            <img class="small" src="images/tophat.png"/>
        </p>
        <p class="paragraph">TopHat2的算法主要分为三个部分：</p>
        <p class="paragraph">(1) 将测序序列和转录组进行比对(可选)<br/>
        <p class="paragraph">(2) 将测序序列整段比对到基因组外显子上<br/>
        <p class="paragraph">(3) 将测序序列分段比对到基因组的两个外显子上</p>
        <p class="paragraph">如果参考基因组选择合适，而且相关实验不存在污染，实验所产生的测序序列的定位的百分比正常情况下会高于70% (Total Mapped Reads or
            Fragments)，其中具有多个定位的测序序列(Multiple Mapped Reads or Fragments)占总体的百分比通常不会超过10%。</p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="参考序列比对分析">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>3.1　Reads与参考基因组比对情况统计</h4>
        <p class="name_table">表3.1　Reads与参考基因组比对情况一览表</p>

        <table class="tf1">
            <tr>
                <th>Sample_name</th>
                <th>sample1</th>
                <th>sample2</th>
            </tr>

            <tr>
                <td>Total reads</td>
                <td>40265154</td>
                <td>43478692
                </td>
            </tr>

            <tr>
                <td>Total mapped</td>
                <td>34612764 (85.96%)</td>
                <td>38712616 (89.04%)
                </td>
            </tr>

            <tr>
                <td>Multiple mapped</td>
                <td>936182 (2.33%)</td>
                <td>1169318 (2.69%)
                </td>
            </tr>

            <tr>
                <td>Uniquely mapped</td>
                <td>33676582 (83.64%)</td>
                <td>37543298 (86.35%)
                </td>
            </tr>

            <tr>
                <td>Read-1</td>
                <td>17093385 (42.45%)</td>
                <td>19021048 (43.75%)
                </td>
            </tr>

            <tr>
                <td>Read-2</td>
                <td>16583197 (41.18%)</td>
                <td>18522250 (42.6%)
                </td>
            </tr>

            <tr>
                <td>Reads map to '+'</td>
                <td>16838962 (41.82%)</td>
                <td>18773054 (43.18%)
                </td>
            </tr>

            <tr>
                <td>Reads map to '-'</td>
                <td>16837620 (41.82%)</td>
                <td>18770244 (43.17%)
                </td>
            </tr>

            <tr>
                <td>Non-splice reads</td>
                <td>22791574 (56.6%)</td>
                <td>25563649 (58.8%)
                </td>
            </tr>

            <tr>
                <td>Splice reads</td>
                <td>10885008 (27.03%)</td>
                <td>11979649 (27.55%)
                </td>
            </tr>

        </table>

        <p class="tremark">比对结果统计详细内容如下：</p>
        (1) Total reads：测序序列经过测序数据过滤后的数量统计(Clean data)。<br/>
        (2) Total mapped：能定位到基因组上的测序序列的数量的统计；一般情况下，如果不存在污染并且参考基因组选择合适的情况下，这部分数据的百分比大于 70%。<br/>
        (3) Multiple mapped：在参考序列上有多个比对位置的测序序列的数量统计；这部分数据的百分比一般会小于10%。<br/>
        (4) Uniquely mapped：在参考序列上有唯一比对位置的测序序列的数量统计。<br/>
        (5) Reads map to '+'，Reads map to '-'：测序序列比对到基因组上正链和负链的统计。<br/>
        (6) Splice reads：(2)中，分段比对到两个外显子上的测序序列(也称为Junction reads)的统计，Non-splice reads为整段比对到外显子的测序序列的统计，Splice
        reads的百分比取决于测序片段的长度。</p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="参考序列比对分析">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>3.2　Reads在参考基因组不同区域的分布情况</h4>
        <p class="paragraph">将比对到基因组上的reads分布情况进行统计，定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间区)。</p>
        <p class="paragraph">
            在基因组注释较为完全的物种中，比对到Exon（外显子）的reads含量最高，比对到Intron（内含子）区域的reads来源于pre-mRNA的残留及可变剪切过程中发生的内含子滞留事件导致的，而比对到Intergenic（基因间区）的reads是因为基因组注释不完全。</p>

        <div class="albumSlider">
            <div class="fullview"><img src='./pictures/A.MR.png'/></div>
            <div class="slider">
                <div class="button movebackward" title="向上滚动"></div>
                <div class="imglistwrap">
                    <ul class="imglist">

                        <li><a id="example2" href='./pictures/A.MR.png'><img src='./pictures/A.MR.JPEG'/></a></li>

                        <li><a id="example2" href='./pictures/A.MR.png'><img src='./pictures/A.MR.JPEG'/></a></li>


                    </ul>
                </div>
                <div class="button moveforward" title="向下滚动"></div>
            </div>
        </div>

        <p class="name_fig">图3.2　Reads在参考基因组不同区域的分布情况</p>
        <p class="premark">&nbsp</p>
        </p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="参考序列比对分析">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>3.3　Reads在染色体上的密度分布情况</h4>
        <p class="paragraph">对Total mapped reads的比对到基因组上的各个染色体（分正负链）的密度进行统计，如下图所示，具体作图的方法为用滑动窗口(window
            size)为1K，计算窗口内部比对到碱基位置上的reads的中位数，并转化成 log<sub>2</sub> 。正常情况下，整个染色体长度越长，该染色体内部定位的reads总数会越多(Marquez et
            al.)。从定位到染色体上的reads数与染色体长度的关系图中，可以更加直观看出染色体长度和reads总数的关系。</p>

        <div class="albumSlider">
            <div class="fullview"><img src='./pictures/A.density.png'/></div>
            <div class="slider">
                <div class="button movebackward" title="向上滚动"></div>
                <div class="imglistwrap">
                    <ul class="imglist">

                        <li><a id="example2" href='./pictures/A.density.png'><img src='./pictures/A.density.JPEG'/></a>
                        </li>

                        <li><a id="example2" href='./pictures/A.ReadsVSlength.png'><img
                                src='./pictures/A.ReadsVSlength.JPEG'/></a></li>


                    </ul>
                </div>
                <div class="button moveforward" title="向下滚动"></div>
            </div>
        </div>

        <p class="name_fig">图3.3　Reads在染色体上的密度分布图</p>
        <p class="premark">每个样品两张图； 图一：横坐标为染色体的长度信息(单位为Mb)，纵坐标为mapped到染色体上的reads数(单位为M)，图中灰色区域表示95%的置信区间
            图二：横坐标为染色体的长度信息(以百万碱基为单位)，纵坐标为log<sub>2</sub>(reads的密度的中位数)，绿色为正链，红色为负链</p>
        </p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="参考序列比对分析">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h4>3.4　Reads比对结果可视化</h4>
        <p class="paragraph">我们提供RNA-seq Reads在基因组上比对结果的bam格式文件，部分物种还提供相应的参考基因组和注释文件，并推荐使用IGV (Integrative Genomics
            Viewer)
            浏览器对bam文件进行可视化浏览。IGV浏览器具有以下特点：(1)能在不同尺度下显示单个或多个读段在基因组上的位置，包括读段在各个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等；(2)能在不同尺度下显示不同区域的读段丰度，以反映不同区域的转录水平；(3)能显示基因及其剪接异构体的注释信息；(4)能显示其他注释信息；(5)既可以从远程服务器端下载各种注释信息，又可以从本地加载注释信息。IGV浏览器使用方法可参考我们提供的使用说明文档(<a
                    href="results/3.Mapping/3.4IGV/IGVQuickStart.pdf" title="点击打开" target="_blank">IGVQuickStart.pdf</a>)。
        </p>
        <p class="center">
            <img class="small" src="images/igv.png"/>
        </p>
        <p class="name_fig">图3.4　IGV浏览器界面</p>
    </div>

    <!----------------------------------------- 参考序列比对Q&A -------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="参考序列比对分析 Q&A">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <div class="QA">
            <div><h4>6.5 参考序列比对分析 Q&A </h4></div>
            <table width=100% align="center" cellspacing="0" cellpadding="8">
                <tr>
                    <td class="question"><b>问</b>：有参分析都需要什么文件？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：相应的参考基因组及基因结构注释文件（gtf/gff/gff3/bed等格式，推荐gtf，gff）、基因的GO注释文件的直接下载链接以及基因功能描述文件。
                    </td>
                </tr>
                <tr>
                    <td class="question"><b>问</b>：造成mapping rate较低的原因可能有哪些？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：TopHat比对时，默认为2个mismatch，即：reads和reference在2mismatch之内，就算mapping到了。当mappingrate较低时主要可能有2个原因：（1）由于reference组装不好，或者所测物种与reference的亲缘关系较远；（2）由于样品的特殊前处理或者相对于参考基因组此样品本身的变异太大，导致mapping
                        rate相对较低。
                    </td>
                </tr>
                <tr>
                    <td class="question"><b>问</b>：mapping时用的是read全长，还是头尾有处理？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：实验方面，我们使用标准的RNA-seq试剂盒，其index是处于Adapter中间，在测序中由Index read完成，由此测序得到的Read
                        1和Read 2的各100个碱基全都是样本的序列，所以mapping时使用100bp，头尾不处理。信息分析方面，我们会将过滤得到的clean reads的全长进行mapping。
                    </td>
                </tr>
            </table>
        </div>
    </div>


    <!----------------------------------------- 可变剪切分析 -------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <h3 id="6"><a name="可变剪切分析"> 4　可变剪切分析</a></h3>
        <p class="paragraph">用ASprofile软件对Cufflinks (Trapnell et
            al.)预测出的基因模型对每个样品的可变剪切事件分别进行分类和表达量统计。可变剪切分析流程及ASprofile中的可变剪切事件分类如下图所示：</p>
        <p class="center">
            <img class="small" src="images/AS.png"/>
        </p>
        <p class="paragraph">12类可变剪切事件定义如下:</p>
        <p class="tremark">
            (1) TSS: Alternative 5' first exon (transcription start site) 第一个外显子可变剪切</br>
            (2) TTS: Alternative 3' last exon (transcription terminal site)　最后一个外显子可变剪切</br>
            (3) SKIP: Skipped exon (SKIP_ON,SKIP_OFF pair)　单外显子跳跃</br>
            (4) XSKIP: Approximate SKIP (XSKIP_ON,XSKIP_OFF pair)　单外显子跳跃（模糊边界）</br>
            (5) MSKIP: Multi-exon SKIP (MSKIP_ON,MSKIP_OFF pair)　多外显子跳跃</br>
            (6) XMSKIP: Approximate MSKIP (XMSKIP_ON,XMSKIP_OFF pair)　多外显子跳跃（模糊边界）</br>
            (7) IR: Intron retention (IR_ON, IR_OFF pair)　单内含子滞留</br>
            (8) XIR: Approximate IR (XIR_ON, XIR_OFF pair)　单内含子滞留（模糊边界）</br>
            (9) MIR: Multi-IR (MIR_ON, MIR_OFF pair)　多内含子滞留</br>
            (10) XMIR: Approximate MIR (XMIR_ON, XMIR_OFF pair)　多内含子滞留（模糊边界）</br>
            (11) AE: Alternative exon ends (5', 3', or both)　可变 5'或3'端剪切</br>
            (12) XAE: Approximate AE　可变 5'或3'端剪切（模糊边界）
        </p>

    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            北京诺禾致源生物信息科技有限公司
        <hr/>
        </p><br/>
        <h4>4.1　可变剪切事件分类和数量统计</h4>
        <p class="center">
            <img class="small" src="images/A_AS.png"/>
        </p>
        <p class="name_fig">图4.1　AS分类和数量统计</p>
        <p class="premark">纵轴为可变剪切事件的分类缩写，横轴为该种事件下可变剪切的数量，不同样品用不同子图和颜色区分</p>
    </div>

    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            北京诺禾致源生物信息科技有限公司
        <hr/>
        </p><br/>
        <h4>4.2　可变剪切事件结构和表达量统计</h4>
        <p class="name_table">表4.2　AS结构和表达量统计</p>

        <table class="tf1">
            <tr>
                <th>event_id</th>
                <th>event_type</th>
                <th>gene_id</th>
                <th>chrom</th>
                <th>event_start</th>
                <th>event_end</th>
                <th>event_pattern</th>
                <th>strand</th>
                <th>fpkm</th>
                <th>ref_id</th>
            </tr>

            <tr>
                <td>1000001</td>
                <td>TSS</td>
                <td>CUFF.15058</td>
                <td>scaffold41667</td>
                <td>34</td>
                <td>200</td>
                <td>200</td>
                <td>+</td>
                <td>27.7448433385</td>
                <td>-
                </td>
            </tr>

            <tr>
                <td>1000002</td>
                <td>TTS</td>
                <td>CUFF.15058</td>
                <td>scaffold41667</td>
                <td>270</td>
                <td>415</td>
                <td>270</td>
                <td>+</td>
                <td>27.7448433385</td>
                <td>-
                </td>
            </tr>

            <tr>
                <td>1000003</td>
                <td>TSS</td>
                <td>CUFF.15003</td>
                <td>scaffold40019</td>
                <td>3</td>
                <td>119</td>
                <td>119</td>
                <td>+</td>
                <td>196.5382788467</td>
                <td>-
                </td>
            </tr>

            <tr>
                <td>1000004</td>
                <td>TTS</td>
                <td>CUFF.15003</td>
                <td>scaffold40019</td>
                <td>324</td>
                <td>425</td>
                <td>324</td>
                <td>+</td>
                <td>196.5382788467</td>
                <td>-
                </td>
            </tr>

        </table>

        <p class="tremark">
            (1) event_id: AS事件编号<br/>
            (2) event_type: AS事件类型 (TSS, TTS, SKIP_{ON,OFF}, XSKIP_{ON,OFF}, MSKIP_{ON,OFF}, XMSKIP_{ON,OFF}, IR_{ON
            ,OFF}, XIR_{ON,OFF}, AE, XAE)<br/>
            (3) gene_id: cufflink组装结果中的基因编号<br/>
            (4) chrom: 染色体编号<br/>
            (5) event_start: AS事件起始位置<br/>
            (6) event_end: AS事件结束位置<br/>
            (7) event_pattern: AS事件特征 (for TSS, TTS - inside boundary of alternative marginal exon; for *SKIP_ON,the
            coordinates of the skipped exon(s); for *SKIP_OFF, the coordinates of the enclosing introns; for *IR_ON, the
            end coordinates of the long, intron-containing exon; for *IR_OFF, the listing of coordinates of all the
            exons along the path containing the retained intron; for *AE, the coordinates of the exon variant)<br/>
            (8) strand: 基因正负链信息<br/>
            (9) fpkm: 此AS类型该基因表达量<br/>
            (10) ref_id: 此基因在参考注释文件中的编号
        </p>

    </div>

    <!----------------------------------------- 可变剪切分析Q&A -------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="可变剪切分析 Q&A">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <div class="QA">
            <div><h4>4.3 可变剪切分析 Q&A </h4></div>
            <table width=100% align="center" cellspacing="0" cellpadding="8">
                <tr>
                    <td class="question"><b>问</b>：什么是可变剪切(alternative splicing)？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种mRNA，因而只产生一种蛋白质。但有些基因产生的mRNA前体可按不同的方式剪接，产生出两种或更多种mRNA，即可变剪接(alternative
                        splicing)。
                    </td>
                </tr>
            </table>
        </div>
    </div>


    <!----------------------------------------- 新转录本预测 ----------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>
        <h3 id="7"><a name="新转录本预测">5　新转录本预测</a></h3>
        <h4>5.1　新转录本预测</h4>
        <p class="paragraph">将所有测序reads数据的基因组定位结果放到一起，用 Cufflinks
            进行组装，然后用Cuffcompare和已知的基因模型进行比较，可以:(1)发现新的未知基因（相对于原有基因注释文件）；(2)发现已知基因新的外显子区域；(3)对已知基因的起始和终止位置进行优化。新基因和新外显子区域预测结果为GTF格式的注释文件。GTF格式的详细说明可参考(<a
                    href="http://mblab.wustl.edu/GTF22.html" target=_blank>http://mblab.wustl.edu/GTF22.html</a>)</p>
        <p class="name_table">表5.1　新转录本结构注释结果</p>

        <table class="tf1">
            <tr>
                <th>seqname</th>
                <th>source</th>
                <th>feature</th>
                <th>start</th>
                <th>end</th>
                <th>score</th>
                <th>strand</th>
                <th>frame</th>
                <th>attributes</th>
            </tr>

            <tr>
                <td>nscaf100</td>
                <td>novelGene</td>
                <td>exon</td>
                <td>2337</td>
                <td>2562</td>
                <td>.</td>
                <td>+</td>
                <td>.</td>
                <td>gene_id &quot;Novel00001&quot;; transcript_id &quot;Novel00001.1&quot;; exon_number &quot;2&quot;;
                </td>
            </tr>

            <tr>
                <td>nscaf100</td>
                <td>novelGene</td>
                <td>exon</td>
                <td>2783</td>
                <td>2888</td>
                <td>.</td>
                <td>+</td>
                <td>.</td>
                <td>gene_id &quot;Novel00001&quot;; transcript_id &quot;Novel00001.1&quot;; exon_number &quot;3&quot;;
                </td>
            </tr>

            <tr>
                <td>nscaf100</td>
                <td>novelGene</td>
                <td>exon</td>
                <td>3378</td>
                <td>3468</td>
                <td>.</td>
                <td>+</td>
                <td>.</td>
                <td>gene_id &quot;Novel00001&quot;; transcript_id &quot;Novel00001.1&quot;; exon_number &quot;4&quot;;
                </td>
            </tr>

            <tr>
                <td>nscaf1016</td>
                <td>novelGene</td>
                <td>exon</td>
                <td>405</td>
                <td>795</td>
                <td>.</td>
                <td>-</td>
                <td>.</td>
                <td>gene_id &quot;Novel00002&quot;; transcript_id &quot;Novel00002.1&quot;; exon_number &quot;1&quot;;
                </td>
            </tr>

        </table>

        <p class="tremark">
            (1) seqname：染色体编号<br/>
            (2) source：来源标签，这里的novelGene指新基因<br/>
            (3) feature：区域类型，目前我们预测外显子区域<br/>
            (4) start：起始坐标<br/>
            (5) end：终止坐标<br/>
            (6) score：不必关注<br/>
            (7) strand：正负链信息<br/>
            (8) frame：不必关注<br/>
            (9) attributes：属性，包括基因编号、转录本编号等信息<br/>
        </p>

        <h4>5.2　基因结构优化</h4>
        <p class="name_table">表5.2　已知基因结构优化</p>

        <table class="tf1">
            <tr>
                <th>Gene_id</th>
                <th>Chromosome</th>
                <th>Strand</th>
                <th>Original_span</th>
                <th>Assembled_span</th>
            </tr>

            <tr>
                <td>BGIBMGA000001</td>
                <td>nscaf1022</td>
                <td>+</td>
                <td>11153~14469</td>
                <td>7785~19320
                </td>
            </tr>

            <tr>
                <td>BGIBMGA000002</td>
                <td>nscaf1071</td>
                <td>-</td>
                <td>1212361~1232913</td>
                <td>1212361~1233015
                </td>
            </tr>

            <tr>
                <td>BGIBMGA000004</td>
                <td>nscaf1071</td>
                <td>-</td>
                <td>1043644~1052129</td>
                <td>1042190~1075985
                </td>
            </tr>

            <tr>
                <td>BGIBMGA000005</td>
                <td>nscaf1071</td>
                <td>-</td>
                <td>999011~1005646</td>
                <td>996511~1013319
                </td>
            </tr>

        </table>

        <p class="tremark">
            (1) Gene_id：原注释文件中基因命名编号<br/>
            (2) Chromosome：染色体编号<br/>
            (3) Strand：正负链信息<br/>
            (4) Original_span：原注释文件中基因起始位置~终止位置<br/>
            (5) Assembled_span：转录组拼接结果中基因起始位置~终止位置<br/>
        </p>
    </div>

    <!----------------------------------------- 新转录本预测Q&A -------------------------------------->
    <div id="page">
        <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
            <a name="新转录本预测 Q&A">北京诺禾致源生物信息科技有限公司</a>
        <hr/>
        </p><br/>

        <div class="QA">
            <div><h4>5.3 新转录本预测 Q&A </h4></div>
            <table width=100% align="center" cellspacing="0" cellpadding="8">
                <tr>
                    <td class="question"><b>问</b>：新转录本预测的意义？</td>
                </tr>
                <tr>
                    <td class="answer"><b>答</b>：我们使用cufflinks拼接得到的基因注释文件，与原有基因注释文件进行比较，找出原有注释中没有包含的基因并对基因的位置进行优化，补充并修改了原有的注释文件。
                    </td>
                </tr>
            </table>


            <!---------------------------------------------- SNP分析 ----------------------------------------->

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="8"><a id="SNP和InDel分析">6　SNP和InDel分析</a></h3>
                <h4>6.1 SNP和InDel </h4>
                <p class="paragraph">SNP全称Single Nucleotide
                    Polymorphisms，是指在基因组上由单个核苷酸变异形成的遗传标记，其数量很多，多态性丰富。从理论上来看每一个SNP 位点都可以有4
                    种不同的变异形式，但实际上发生的只有两种，即转换和颠换，二者之比为1:2。SNP在CG序列上出现最为频繁，而且多是C转换为T，原因是CG中的C常为甲基化的，自发地脱氨后即成为胸腺嘧啶。一般而言，SNP是指变异频率大于1%的单核苷酸变异。InDel(insertion-deletion)是指相对于参考基因组，样本中发生的小片段的插入缺失，该插入缺失可能含一个或多个碱基。</p>
                <p class="paragraph">我们通过samtools和picard-tools等工具对比对结果进行染色体坐标排序、去掉重复的reads等处理，最后通过变异检测软件GATK2分别进行SNP
                    Calling和InDel Calling，并对原始结果进行过滤，得到如下表形式的分析结果。其中InDel分析结果每列的含义和SNP结果是一致的。
                <p class="name_table">表6　SNP分析结果</p>

                <table class="tf1">
                    <tr>
                        <th>#CHROM</th>
                        <th>POS</th>
                        <th>REF</th>
                        <th>ALT</th>
                        <th>sample1</th>
                        <th>sample2</th>
                        <th>Gene_id</th>
                    </tr>

                    <tr>
                        <td>scaffold2462</td>
                        <td>1688</td>
                        <td>C</td>
                        <td>A</td>
                        <td>0,3</td>
                        <td>0,3</td>
                        <td>BGIBMGA014355
                        </td>
                    </tr>

                    <tr>
                        <td>scaffold2311</td>
                        <td>135</td>
                        <td>G</td>
                        <td>C</td>
                        <td>1,16</td>
                        <td>1,15</td>
                        <td>BGIBMGA014351
                        </td>
                    </tr>

                    <tr>
                        <td>scaffold1865</td>
                        <td>1902</td>
                        <td>C</td>
                        <td>T</td>
                        <td>0,53</td>
                        <td>0,36</td>
                        <td>BGIBMGA014340
                        </td>
                    </tr>

                    <tr>
                        <td>scaffold1769</td>
                        <td>2081</td>
                        <td>G</td>
                        <td>A</td>
                        <td>1,10</td>
                        <td>13,3</td>
                        <td>BGIBMGA014337
                        </td>
                    </tr>

                </table>

                <p class="tremark">
                    #CHROM：SNP位点所在染色体<br/>
                    POS：SNP位点坐标<br/>
                    REF：参考序列在该位点的基因型<br/>
                    ALT：该位点的其它基因型<br/>
                    Gene_id: SNP所在基因id<br/>
                    other coloums：每个个体该位点的基因型(数字代表支持该位点的reads个数)
                </p>
            </div>

            <!----------------------------------------- SNP和InDelQ&A -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="SNP和InDel Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>

                <div class="QA">
                    <div><h4>6.2 SNP和InDel Q&A </h4></div>
                    <table width=100% align="center" cellspacing="0" cellpadding="8">
                        <tr>
                            <td class="question"><b>问</b>：SNP分析的参考序列是什么，即REF是指什么？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：参考序列REF是选取的参考基因组序列，SNP是通过将reads比对到参考基因组上从而进行SNP calling。
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>问</b>：SNP中一列中两个数字分别代表支持REF和ALT两种碱基的reads数目，为什么有些会是0呢？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：以0,12为例，表示有0个reads支持REF的碱基，即没有支持该碱基的reads，12个reads支持ALT的碱基。
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>问</b>：SNP具体指什么？其与InDel何和区别？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：一般而言，SNP是指变异频率大于1%的单核苷酸变异。InDel(insertion-deletion)则是插入或者缺失，insert或者deletion。
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>问</b>：SNP和InDel相关名词的解释</td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>SNP</b>：SNP（Single
                                Nucleotide Polymorphisms） 单核苷酸多态性。
                            </td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>SNP calling</b>：查找NGS数据与参考序列区别的过程，称为SNP
                                calling。其中包含统计矩阵的计算，以筛选出最可能的SNP。
                            </td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>InDel</b>：插入缺失。是指相对于参考基因组，样本中发生的小片段的插入缺失，该插入缺失可能含一个或多个碱基。
                            </td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>non_synonymous &
                                synonymous</b>：同义/非同义突变。碱基被替换发生SNP后,产生了新的密码子，但由于生物的遗传密码子存在简并现象,新旧密码子仍是同义密码子，所编码的氨基酸种类保持不变，这种突变称为同义突变；反之则为非同义突变。
                            </td>
                        </tr>
                        </td></tr>
                    </table>
                </div>
            </div>


            <!----------------------------------------- 基因表达水平分析 -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="9"><a name="基因表达水平分析">7　基因表达水平分析</a></h3>
                <h4>7.1 基因表达水平分析 </h4>
                <p class="paragraph">
                    一个基因表达水平的直接体现就是其转录本的丰度情况，转录本丰度越高，则基因表达水平越高。在RNA-seq分析中，我们可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外，还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性，人们引入了RPKM的概念，RPKM(Reads
                    Per Kilo bases per Million
                    reads)是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响，是目前最为常用的基因表达水平估算方法 (Mortazavi et
                    al., 2008)。</p>
                <p class="paragraph">
                    本次采用HTSeq软件对各样品进行基因表达水平分析，使用的模型为union。结果文件分别统计了不同表达水平下基因的数量以及单个基因的表达水平。一般情况下，RPKM数值0.1或者1作为判断基因是否表达的阈值，不同的文献所采用的阈值不同。</p>
                <p class="name_table">表7.1　不同表达水平区间的基因数量统计表</p>

                <table class="tf1">
                    <tr>
                        <th>RPKM Interval</th>
                        <th>sample1</th>
                        <th>sample2</th>
                    </tr>

                    <tr>
                        <td>0~1</td>
                        <td>5131(31.72%)</td>
                        <td>4845(29.95%)
                        </td>
                    </tr>

                    <tr>
                        <td>1~3</td>
                        <td>1533(9.48%)</td>
                        <td>1487(9.19%)
                        </td>
                    </tr>

                    <tr>
                        <td>3~15</td>
                        <td>4262(26.35%)</td>
                        <td>4218(26.07%)
                        </td>
                    </tr>

                    <tr>
                        <td>15~60</td>
                        <td>3521(21.77%)</td>
                        <td>3856(23.84%)
                        </td>
                    </tr>

                    <tr>
                        <td>>60</td>
                        <td>1730(10.69%)</td>
                        <td>1771(10.95%)
                        </td>
                    </tr>

                </table>

                <p class="name_table">表7.2　基因表达水平统计表</p>

                <table class="tf1">
                    <tr>
                        <th>Gene_id</th>
                        <th>WX1</th>
                        <th>WX2</th>
                    </tr>

                    <tr>
                        <td>BGIBMGA002763</td>
                        <td>4.19204745331268</td>
                        <td>5.73744283382454
                        </td>
                    </tr>

                    <tr>
                        <td>BGIBMGA007298</td>
                        <td>20.3501598601508</td>
                        <td>19.388093160389
                        </td>
                    </tr>

                    <tr>
                        <td>BGIBMGA010355</td>
                        <td>12.0020376699495</td>
                        <td>8.02662457055251
                        </td>
                    </tr>

                    <tr>
                        <td>BGIBMGA007441</td>
                        <td>2.50506352109335</td>
                        <td>12.8217509373761
                        </td>
                    </tr>

                </table>
            </div>

            <!----------------------------------------- 基因表达水平分析Q&A -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="基因表达水平分析Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>

                <div class="QA">
                    <div><h4>7.2 基因表达水平分析Q&A </h4></div>
                    <table width=100% align="center" cellspacing="0" cellpadding="8">
                        <tr>
                            <td class="question"><b>问</b>：基因表达水平如何计算？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：在RNA-seq技术中，RPKM（Reads Per Kilo bases per Million mapped
                                Reads）是每百万reads中来自某一基因每千碱基长度的reads数目，RPKM同时考虑了测序深度和基因长度对reads计数的影响，是目前最为常用的基因表达水平估算方法。<br/>
                                <div style="text-align:center"><img src="images/RPKM.png"/></div>
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>问</b>：认为基因表达的阈值是多少？为什么设置为这个阈值？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：有参转录组当中，认为RPKM>1是基因表达的。这个阈值是主流杂志推荐的，也能够很好的反应基因的表达水平。</td>
                        </tr>
                        <tr>
                            <td class="question"><b>基因表达水平分析相关名词的解释</b>:</td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>FPKM</b>：expected number of
                                Fragments Per Kilobase of transcript sequence per Millions base pairs
                                sequenced，是每百万fragments中来自某一基因每千碱基长度的fragments数目。
                            </td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>RPKM</b>：expected number of
                                reads Per Kilobase of transcript sequence per Millions base pairs
                                sequenced，是每百万reads中来自某一基因每千碱基长度的reads数目。
                            </td>
                        </tr>
                    </table>
                </div>
            </div>


            <!---------------------------------------- RNA-seq整体质量评估 ------------------------------------>
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="10"><a name="RNA-seq整体质量评估">8　RNA-seq整体质量评估</a></h3>
                <h4>8.1　表达水平的饱和曲线检查</h4>
                <p class="paragraph">定量饱和曲线检查反映了基因表达水平定量对数据量的要求。表达量越高的基因，就越容易被准确定量；反之，表达量低的基因，需要较大的测序数据量才能被准确定量。</p>
                <p class="paragraph">
                    表达水平的饱和曲线的具体算法描述如下：分别对10%、20%、30%……90%的总体测序数据单独进行基因定量分析，并把所有数据条件下得到的基因的表达水平作为最终的数值。用每个百分比条件下求出的单个基因的RPKM数值和最终对应基因的表达水平数值进行比较，如果差异小于15%，则认为这个基因在这个条件下定量是准确的。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/sample1.saturation.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/sample1.saturation.png'><img
                                        src='./pictures/sample1.saturation.JPEG'/></a></li>

                                <li><a id="example2" href='./pictures/sample2.saturation.png'><img
                                        src='./pictures/sample2.saturation.JPEG'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图8.1　定量饱和曲线检查分布图</p>
                <p class="premark">横坐标代表定位到基因组上的reads数占总reads数的百分比，纵坐标代表定量误差在15%以内的基因的比例</p>
                </p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="RNA-seq整体质量评估">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>8.2　均一性分布检查</h4>
                <p class="paragraph">
                    理想条件下，对于RNA-seq技术来说，测序序列(reads)之间为独立抽样并且reads在所有表达的转录本上的分布应该呈现均一化分布。实际上，reads在转录本上的分布受体内和体外等多种因素的影响。例如，在RNA-seq建库过程中，片段破碎和RNA反转录的顺序会显著影响测序数据最终的均一化分布，如果先进行RNA反转录会导致RNA-seq最终的数据呈现严重的3’偏好性。其他影响因素还包括转录区域的GC含量、随机引物等。此外，生物体内从5’或者3’的降解过程同样会导致不均一性分布。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/WX1.Mean_coverage_distribution.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/A.MC.png'><img src='./pictures/A.MC.JPEG'/></a>
                                </li>

                                <li><a id="example2" href='./pictures/A.MC.png'><img src='./pictures/A.MC.JPEG'/></a>
                                </li>

                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图8.2　不同表达水平的转录本的reads密度分布图</p>
                <p class="premark">High：高表达量转录本；Medium：中度表达量转录本；Low：低表达量转录本；横坐标为距离转录本5’端的相对位置(以百分比表示)，纵坐标为覆盖深度的平均值</p>
                </p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="RNA-seq整体质量评估">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>8.3　RNA-Seq相关性检查</h4>
                <p class="paragraph">生物学重复是任何生物学实验所必须的，高通量测序技术也不例外(Hansen et
                    al.)。生物学重复主要有两个用途：一个是证明所涉及的生物学实验操作是可以重复的且变异不大，另一个是为了确保后续的差异基因分析得到更可靠的结果。样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1，表明样品之间表达模式的相似度越高。Encode计划建议皮尔逊相关系数的平方(R<sup>2</sup>)大于0.92(理想的取样和实验条件下)。具体的项目操作中，我们要求R<sup>2</sup>至少要大于0.8，否则需要对样品做出合适的解释，或者重新进行实验。
                </p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/cor_pearson.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/cor_pearson.png'><img
                                        src='./pictures/cor_pearson.JPEG'/></a></li>

                                <li><a id="example2" href='./pictures/A.scatter.png'><img
                                        src='./pictures/A.scatter.JPEG'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图8.3　RNA-Seq相关性检查</p>
                <p class="premark">散点图(若样品多于4组，则仅展示生物学重复之间的散点图)：样品间的相关系数散点图，R<sup>2</sup>:pearson相关系数的平方；热图：样品间相关系数热图
                </p>
                </p>
            </div>


            <!----------------------------------------- RNA-seq整体质量评估Q&A -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="RNA-seq整体质量评估Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>

                <div class="QA">

                    <div><h4>8.3 RNA-seq整体质量评估Q&A </h4></div>

                    <table width=100% align="center" cellspacing="0" cellpadding="8">
                        <tr>
                            <td class="question"><b>问</b>：表达水平的饱和曲线图反应了什么问题？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：表达水平的饱和曲线图是对定量饱和水平的检查，其反映了基因表达水平定量对数据量的要求。表达量越高的基因，就越容易被准确定量；反之，表达量低的基因，需要较大的测序数据量才能被准确定量。当曲线达到饱和，说明测序数据量已满足定量要求。
                            </td>
                        </tr>

                        <tr>
                            <td class="question"><b>问</b>：样品间的相关性有何意义？如何计算?</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：样品间的相关性反应了样品间的相似程度，即不同处理或组织的样品在表达水平方面的相似度。相关系数越接近1，样品间的相似度越高，样品间的差异基因也越少。生物学重复间的样品的相关系数应大于生物学重复外的样品的相关系数。相关系数的计算方法有三种：A.
                                Pearson correlation; B. Spearman rank correlation; C. Kendall’s
                                τ。诺禾使用R语言进行Pearson相关系数的计算。
                            </td>
                        </tr>


                    </table>
                </div>
            </div>


            <!---------------------------------------- 基因差异表达分析 --------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="11"><a name="差异表达分析">9 差异表达分析</a></h3>
                <h4>9.1　基因表达水平对比</h4>
                <p class="paragraph">通过所有基因的RPKM分布图以及盒形图对不同实验条件下的基因表达水平进行比较。对于同一实验条件下的重复样品，最终的RPKM为所有重复数据的平均值。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/boxplot.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/boxplot.png'><img src='./pictures/boxplot.JPEG'/></a>
                                </li>

                                <li><a id="example2" href='./pictures/density.png'><img src='./pictures/density.JPEG'/></a>
                                </li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图9.1　不同实验条件下基因表达水平比对图</p>
                <p class="premark">图一：RPKM盒形图，横坐标为样品名称，纵坐标为log<sub>10</sub>(RPKM+1)，每个区域的盒形图对五个统计量(至上而下分别为最大值，上四分位数，中值，下四分位数和最小值)
                    图二：RPKM分布图，横坐标为log<sub>10</sub>(RPKM+1), 纵坐标为基因的密度</p>
                </p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="基因差异表达分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>9.2　差异表达基因列表</h4>
                <p class="paragraph">基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品，我们采用DESeq（Anders et al,
                    2010）进行分析：</p>
                <p class="paragraph">该分析方法基于的模型是负二项分布，第 i 个基因在第 j 个样本中的 read count 值为K<sub>ij</sub>，则有</p>
                <p class="center">K<sub>ij</sub> ～ NB(μ<sub>ij</sub>,σ<sub>ij</sub><sup>2</sup>)</p>
                <p class="paragraph">对于无生物学重复的样品，先采用TMM对read count数据进行标准化处理，之后用DEGseq进行差异分析。差异表达基因列表如下：</p>
                <p class="name_table">表9.2　差异基因列表</p>


                <table class="tf1">
                    <tr>
                        <th>Gene Id</th>
                        <th>sample1</th>
                        <th>sample2</th>
                        <th>log2FoldChange</th>
                        <th>pval</th>
                        <th>p-adjusted</th>
                    </tr>

                    <tr>
                        <td>BGIBMGA000002</td>
                        <td>71.2423484624501</td>
                        <td>260.785709960859</td>
                        <td>-1.8721</td>
                        <td>4.0087e-18</td>
                        <td>8.0828e-17
                        </td>
                    </tr>

                    <tr>
                        <td>BGIBMGA000005</td>
                        <td>29.0923170359483</td>
                        <td>0</td>
                        <td>5.7226</td>
                        <td>2.0989e-09</td>
                        <td>2.5146e-08
                        </td>
                    </tr>

                    <tr>
                        <td>BGIBMGA000013</td>
                        <td>9.94551303321952</td>
                        <td>0</td>
                        <td>6.759</td>
                        <td>0.00061471</td>
                        <td>0.0037888
                        </td>
                    </tr>

                    <tr>
                        <td>BGIBMGA000021</td>
                        <td>21.3794701938597</td>
                        <td>61.1560855049057</td>
                        <td>-1.5163</td>
                        <td>0.00063322</td>
                        <td>0.0038898
                        </td>
                    </tr>

                </table>

                <p class="tremark">差异基因列表主要包括的内容：<br/>
                    (1) Gene_id: 基因编号<br/>
                    (2) readcount_Sample1：校正后样品1的readcount值<br/>
                    (3) readcount_Sample2：校正后样品2的readcount值<br/>
                    (4) log2FoldChange: log<sub>2</sub>(Sample1/Sample2)<br/>
                    (5) pvalue(pval): 统计学差异显著性检验指标<br/>
                    (6) qvalue(padj): 校正后的pvalue。qvalue越小，表示基因表达差异越显著<br/>
                </p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="基因差异表达分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>9.3　差异表达基因筛选</h4>
                <p class="paragraph">用火山图可以推断差异基因的整体分布情况，对于无生物学重复的实验，为消除生物学变异，从差异倍数和显著水平两个方面进行评估，对差异基因进行筛选，阈值设定一般为: |log<sub>2</sub>(FoldChange)|
                    > 1 且 qvalue &lt; 0.005。对于有生物学重复的实验，由于DESeq已经进行了生物学变异的消除，我们对差异基因筛选的标准一般为: padj &lt; 0.05。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/volcano.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/volcano.png'><img src='./pictures/volcano.JPEG'/></a>
                                </li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图9.3　差异基因火山图</p>
                <p class="premark">有显著性差异表达的基因用红色点表示；横坐标代表基因在不同样本中表达倍数变化；纵坐标代表基因表达量变化差异的统计学显著性</p>
                </p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="基因差异表达分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>9.4　差异基因聚类分析</h4>
                <p class="paragraph">
                    聚类分析用于判断差异基因在不同实验条件下的表达模式；通过将表达模式相同或相近的基因聚集成类，从而识别未知基因的功能或已知基因的未知功能；因为这些同类的基因可能具有相似的功能，或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的RPKM值为表达水平，做层次聚类(hierarchical
                    clustering)分析，不同颜色的区域代表不同的聚类分组信息，同组内的基因表达模式相近，可能具有相似的功能或参与相同的生物学过程。</p>
                <p class="paragraph">除了差异基因表达量RPKM层次聚类分析，我们还分别用H-cluster、K-means和SOM等三种方法对差异基因的相对表达水平值log<sub>2</sub>(ratios)进行聚类。不同的聚类算法分别将差异基因分为若干cluster，同一cluster中的基因在不同的处理条件下具有相似的表达水平变化趋势。
                </p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/heatCluster.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/heatCluster.png'><img
                                        src='./pictures/heatCluster.png'/></a></li>

                                <li><a id="example2" href='./pictures/h_show_plots.png'><img
                                        src='./pictures/h_show_plots.JPEG'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图9.4　差异基因聚类图</p>
                <p class="premark">图一：log<sub>2</sub>(ratios)折线图，每个子图中的灰色线条表示一个cluster中的基因在不同实验条件下相对表达量，蓝色线条表示这个cluster中的所有基因在不同实验条件下相对表达量的平均值，x轴表示实验条件，y轴表示相对表达量
                    图二：整体RPKM层次聚类图，以log<sub>10</sub>(RPKM+1)值进行聚类，红色表示高表达基因，蓝色表示低表达基因。颜色从红到蓝，表示log<sub>10</sub>(RPKM+1)从大到小
                </p>
            </div>


            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="基因差异表达分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>9.5　差异基因维恩图</h4>
                <p class="paragraph">差异基因维恩图展示了各比较组间差异基因的个数，以及比较组间的重叠关系。(仅提供两组、三组和四组比较的venn图)</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/WX4vsWX2_WX3vsWX1.DEG_Venn_diagram.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/Sample1vsSample2_Sample3vsSample4.venn.png'><img
                                        src='./pictures/WX4vsWX2_WX3vsWX1.DEG_Venn_diagram.JPEG'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图9.5　差异基因维恩图</p>
                <p class="premark">每个大圆圈中的数字之和代表该比较组合的差异基因总个数，圆圈交叠的部分表示组合之间共有的差异基因。</p>
            </div>

            <!----------------------------------------- 差异表达分析Q&A -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异表达分析Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>

                <h4>9.6 差异表达分析Q&A </h4>

                <table width=100% align="center" cellspacing="0" cellpadding="8">
                    <tr>
                        <td class="question"><b>问</b>：如何判断一个基因是否是差异基因？如果是差异基因，如何判断该基因的表达量是上调还是下调？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：
                            无生物学重复时，先采用TMM对read count数据进行标准化处理，再用DEGseq进行差异分析,筛选阈值为qvalue &lt 0.005 &
                            |log2FoldChange|&gt1；
                            对于差异基因，如果基因的log2Foldchange&gt0，则认为该差异基因是上调，反之，若log2Foldchange&lt0，认为该差异基因是下调。

                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：能否用RPKM进行差异分析？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：在做差异分析时，诺禾是采用readcount数据，通过DESeq或者TMM标准化后，进行差异分析。RPKM实际上也是对readcount进行标准化处理的一种方法，各种标准化方法优劣势比较见下图(Dillies,
                            M. A. et al, 2013)，可以看出，DESeq和TMM的标准化效果最好，RPKM的标准化效果较差，所以，不推荐使用RPKM进行差异分析。<br/>
                            <div style="text-align:center"><img src="images/normalization_evaluate.png"/></div>
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：如何判断差异基因在两个样品间的差异大小？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：差异的显著情况可通过矫正后的pvalue来看，矫正后的pvalue越小，差异越显著。也可通过|log2Foldchange|来判断差异的大小情况，|log2Foldchange|越大，差异倍数越大。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：差异表达分析中的RPKM密度图与基因表达水平分析中的RPKM密度图有何区别？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：差异表达分析中的RPKM的密度图，是所有样品密度图的结合。其中，不同颜色代表不同样品，可以从表达量的总体分布角度来衡量各样品之间的差异。而基因表达水平分析中的RPKM密度图则只反映了单个样品的表达情况，无整体比较信息。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：某基因在两个样本中表达量差别很大，却不存在与显著差异的基因列表中，这是为何？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：差异基因的筛选是基于统计学意义的，不能直观的通过两个数值的大小判断差异基因的是否：
                            <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>首先：</b>受测序深度的影响，有些样品的测序深度较深，可能导致该样品的readcount数值较高，做差异分析的第一步就是要消除测序深度的影响，对原始数据进行标准化处理（我们在有重复项目中，使用DESeq自带的标准化方法；无重复项目中，使用TMM标准化方法）
                            <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>其次：</b>在差异分析过程中，需要对readcount的分布进行估计，经验表明，readcount服从负二项分布。在有重复的项目中，重复的好坏也会对差异基因与否产生影响。如果重复较差，组内差异情况会屏蔽掉部分组间的差异。在估计完参数后，需要用特定检验方法来判断差异基因与否
                            <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>再次：</b>在计算完pvalue以后，需要对pvalue进行多重假设检验校正，来减少假阳性。这个过程会使得padj会大于原来的pvalue，使得部分通过pvalue阀值的基因，无法通过padj的阀值。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：差异基因筛选条件最大能设的阈值是多少？很多客户希望通过调整差异基因筛选阈值来找相关基因是否有必要？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：最大可设阀值没有定论，一般等级比较高的文章卡的阀值都比较的严格。在一些PLOS
                            ONE等文章里面，可能卡的值比较的松，有的文章会在无重复中，只卡qvalue，不卡log2foldchange。有的文章会卡pvalue。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：某基因readcount值为0，但是也有foldchange以及pvalue、qvalue值？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：在DESeq中，如果某基因的在一个样品中的校正后的readcount为0，而在另一个样品中不为0，foldchange会为INF或者-INF；如果两个数值均为0，log2foldchange以及pvalue、qvalue值均为NA；在DEGseq中，如果某基因的在一个样品中的校正后的readcount为0，软件会默认的把0进行轻微的校正，校正成一个接近于0，但不为0的值，故会产生foldchange以及pvalue、qvalue值。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：差异基因列表中，readcount一个为0，另一个不为0，能否说明一个表达，一个不表达？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：在无参项目中，一般默认rpkm>0.3时，基因表达；在有参项目中，一般默认rpkm>1时，基因表达。一般不推荐看readcount的值看判断表达与否。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：能否提取部分基因来做差异分析？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：不能。差异分析是基于整体来做的。差异分析软件的作者推荐用全部readcount进行差异分析，若使用部分基因做分析，会毁坏掉数据整体的特点，如测序深度、reads分布特征。所以不推荐老师抽取部分来做差异分析。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：按照指定的顺序画聚类图可以吗？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：h_cluster,k-means和som的聚类图可按照指定顺序绘制，但聚类热图的顺序不能调整。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：聚类分析是怎么做的？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：聚类使用的为R中的聚类软件包pheatmap，所针对的数据为union_for_cluster（差异基因的并集），以基因的相对表达水平值log2(ratios)
                            进行聚类。其采用相应的距离算法，算出每个基因之间的距离，然后通过反复迭代，计算基因之间的相对距离，最后根据基因的相对距离远近来分成不同的subcluster，从而实现聚类。该软件包是免费的，只需通过R来运行。H-cluster、K-means和SOM
                            都是聚类的方法，均采用的是R语言相关代码和函数实现的，也有一些免费的软件可以做这些聚类分析，例如gene_cluster等。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：为什么进行聚类分析？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：聚类分析用于判断差异基因在不同实验条件下的表达模式；通过将表达模式相同或相近的基因聚集成类，从而识别未知基因的功能或已知基因的未知功能；因为这些同类的基因可能具有相似的功能，或是共同参与同一代谢过程或细胞通路。
                        </td>
                    </tr>
                    <tr>
                        <td class="question"><b>问</b>：为什么要用校正后的p值，能直接用p_value吗？</td>
                    </tr>
                    <tr>
                        <td class="answer"><b>答</b>：校正后的p值（padj/qvalue），是对p值进行了多重假设检验，校正后的p值比原有的p值要大，能更好地控制假阳性率。
                        </td>
                    </tr>
                </table>
            </div>


            <!---------------------------------------- 差异基因GO富集分析 ------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="12"><a name="差异基因GO富集分析">10　差异基因GO富集分析</a></h3>
                <p class="paragraph">Gene Ontology（简称 GO, http://www.geneontology.org/）是基因功能国际标准分类体系。作为基因本体联合会(Gene
                    Onotology Consortium)所建立的数据库，它旨在建立一个适用于各种物种的，对基因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标
                    准。GO分为分子功能（Molecular Function）、生物过程（biological process）、和细胞组成（cellular
                    component）三个部分。基因或蛋白质可以通过ID对应或者序列注释的方法找到与之对应的GO编号，而GO编号可用于对应到Term，即功能类别或者细胞定位。
                    根据实验目的筛选差异基因后，富集分析研究差异基因在 Gene Ontology
                    中的分布状况以期阐明实验中样本差异在基因功能上的体现。普通GO富集分析的原理为超几何分布：根据挑选出的差异基因计算这些差异基因同GO
                    分类中某几个特定的分支的超几何分布关系，通过假设验证得到一个特定p-value。小的p 值表示差异基因在该GO 中出现了富集。</p>
                <p class="paragraph">我们在分析中GO富集分析采用的软件方法为GOseq（Young et al, 2010）,此方法基于 Wallenius non-central
                    hyper-geometric distribution。相对于普通的超几何分布(Hyper-geometric
                    distribution)，此分布的特点是从某个类别中抽取个体的概率与从某个类别之外抽取一个个体的概率是不同的，而这种概率的不同是通过对基因长度的偏好性进行估计得到的，从而能更为准确地计算出
                    GOterm 被差异基因富集的概率。
                </p>
                <h4>10.1　差异基因GO富集列表</h4>

                <p class="name_table">表10.1　差异基因GO富集列表</p>
                <p class="center">

                <table class="tf1">
                    <tr>
                        <th>GO accession</th>
                        <th>Description</th>
                        <th>Term type</th>
                        <th>Over represented p-Value</th>
                        <th>Corrected p-Value</th>
                        <th>DEG item</th>
                        <th>DEG list</th>
                    </tr>

                    <tr>
                        <td>GO:0004298</td>
                        <td>threonine-type endopeptidase activity</td>
                        <td>molecular_function</td>
                        <td>2.5403e-12</td>
                        <td>4.9422e-09</td>
                        <td>14</td>
                        <td>1035</td>
                    </tr>

                    <tr>
                        <td>GO:0070003</td>
                        <td>threonine-type peptidase activity</td>
                        <td>molecular_function</td>
                        <td>2.5403e-12</td>
                        <td>4.9422e-09</td>
                        <td>14</td>
                        <td>1035</td>
                    </tr>

                    <tr>
                        <td>GO:0005839</td>
                        <td>proteasome core complex</td>
                        <td>cellular_component</td>
                        <td>4.0762e-11</td>
                        <td>5.2869e-08</td>
                        <td>14</td>
                        <td>1035</td>
                    </tr>

                    <tr>
                        <td>GO:0000502</td>
                        <td>proteasome complex</td>
                        <td>cellular_component</td>
                        <td>5.5412e-11</td>
                        <td>5.3902e-08</td>
                        <td>15</td>
                        <td>1035</td>
                    </tr>

                </table>

                <p class="tremark">结果表格详细内容如下：<br/>
                    (1) GO_accession：Gene Ontology数据库中唯一的标号信息<br/>
                    (2) Description：Gene Ontology功能的描述信息<br/>
                    (3) Term_type：该GO的类别(cellular_component：细胞组分；biological_process：生物学过程；molecular_function：分子功能)<br/>
                    (4) Over_represented_pValue：富集分析统计学显著水平<br/>
                    (5) Corrected_pValue：矫正后的P-Value，一般情况下，Corrected_pValue &lt 0.05 该功能为富集项<br/>
                    (6) DEG_item：与该GO相关的差异基因的数目<br/>
                    (7) DEG_list：GO注释的差异基因数目</p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异基因GO富集分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>10.2　差异基因GO富集柱状图</h4>
                <p class="paragraph">差异基因GO富集柱状图，直观的反映出在生物过程(biological process)、细胞组分(cellular component)和分子功能(molecular
                    function)富集的GO term上差异基因的个数分布情况。我们挑选了富集最显著的30个GO term在图中展示，如果不足30条，则全部展示。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/A.bar_graph.png'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/A.bar_graph.png'><img
                                        src='./pictures/A.bar_graph.JPEG'/></a></li>

                                <li><a id="example2" href='./pictures/A.bar_graph_updown.png'><img
                                        src='./pictures/A.bar_graph_updown.JPEG'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图10.2　GO富集柱状图</p>
                <p class="premark">每组两张图；图一：纵坐标为富集的GO term，横坐标为该term中差异基因个数。不同颜色用来区分生物过程、细胞组分和分子功能，带“*”为显著富集的GOterm
                    图二：对图一中的GO，按生物过程、细胞组分和分子功能三大类别及差异基因上下调分类画的三个子图</p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异基因GO富集分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>10.3　差异基因GO富集DAG图</h4>
                <p class="paragraph">有向无环图(Directed Acyclic
                    Graph，DAG)为差异基因GO富集分析结果的图形化展示方式。图中，分支代表包含关系，从上至下所定义的功能范围越来越小，一般选取GO富集分析的结果前10位作为有向无环图的主节点，并通过包含关系，将相关联的GO
                    Term一起展示，颜色的深浅代表富集程度。我们的项目中分别绘制生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular
                    component)的DAG图。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/WX3vsWX1.DEG_Enriched_GO_bp_DAG.png' alt='无显著富集结果'/>
                    </div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/WX3vsWX1.DEG_Enriched_GO_bp_DAG.png'><img
                                        src='./pictures/WX3vsWX1.DEG_Enriched_GO_bp_DAG.JPEG' alt='无显著富集结果'/></a></li>

                                <li><a id="example2" href='./pictures/WX3vsWX1.DEG_Enriched_GO_cc_DAG.png'><img
                                        src='./pictures/WX3vsWX1.DEG_Enriched_GO_cc_DAG.JPEG' alt='无显著富集结果'/></a></li>

                                <li><a id="example2" href='./pictures/WX3vsWX1.DEG_Enriched_GO_mf_DAG.png'><img
                                        src='./pictures/WX3vsWX1.DEG_Enriched_GO_mf_DAG.JPEG' alt='无显著富集结果'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图10.3　GO富集有向无环图</p>
                <p class="premark">
                    每个节点代表一个GO术语，方框代表的是富集程度为TOP10的GO，颜色的深浅代表富集程度，颜色越深就表示富集程度越高，每个节点上展示了该TERM的名称及富集分析的p-value</p>
            </div>
            <!----------------------------------------- GO富集分析Q&A -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异基因GO富集分析Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>


                <div class="QA">
                    <div><h4>10.4 差异基因GO富集分析Q&A </h4></div>
                    <table width=100% align="center" cellspacing="0" cellpadding="8">
                        <tr>
                            <td class="question"><b>问</b>：GO富集分析所使用的软件是什么？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：GO富集分析均采用R包，富集采用的为GOseq,topGO有向无环图采用的为topGO。
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>问</b>：GO富集分析一般分析到二级，还能继续分析吗？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：GO富集分析是针对所有注释的GO进行统计检验，任何等级的都有。
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>问</b>：GO富集和GO分类有何区别？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：GO分类是将每个基因与其对应的GO功能联系起来，以获取基因的GO注释信息，而GO富集分析则是将GO功能相似的基因集通过统计学检验算法富集到一起，从而方便研究具有某一类GO功能的基因。
                            </td>
                        </tr>
                    </table>
                </div>
            </div>


            <!--------------------------------------- 差异基因KEGG富集分析 ------------------------------------>
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="13"><a name="差异基因KEGG富集分析">11　差异基因KEGG富集分析</a></h3>
                <p class="paragraph">在生物体内，不同基因相互协调行使其生物学功能，通过Pathway显著性富集能确定差异表达基因参与的最主要生化代谢途径和信号转导途径。KEGG（Kyoto
                    Encyclopedia of Genes and
                    Genomes）是系统分析基因功能、基因组信息数据库，它有助于研究者把基因及表达信息作为一个整体网络进行研究。作为是有关Pathway的主要公共数据库(Kanehisa,2008）)，KEGG提供的整合代谢途径
                    (pathway)查询十分出色，包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解，不仅提供了所有可能的代谢途径，而且对催化各步反应的酶进行
                    了全面的注解，包含有氨基酸序列、PDB库的链接等等，是进行生物体内代谢分析、代谢网络研究的强有力工具。Pathway显著性富集分析以KEGG
                    数据库中Pathway为单位，应用超几何检验，找出与整个基因组背景相比，在差异表达基因中显著性富集的Pathway。计算公式如下:</p>
                <p class="center">
                    <img class="normal2" src="images/kegg_pvalue.png"/>
                </p>
                <p class="paragraph">在这里N为所有基因中具有Pathway注释的基因数目； n为N中差异表达基因的数目；M为所有基因中注释为某特定Pathway的基因数目； m
                    为注释为某特定Pathway的差异表达基因数目。FDR≤0.05 时，表示差异基因在该Pathway中显著富集，我们使用KOBAS（2.0）进行Pathway富集分析。</p>
                <h4>11.1　差异基因KEGG富集列表</h4>
                <p class="center">
                <p class="name_table">表11.1　差异基因KEGG富集列表</p>

                <table class="tf1">
                    <tr>
                        <th>#Term</th>
                        <th>Database</th>
                        <th>ID</th>
                        <th>Sample number</th>
                        <th>Background number</th>
                        <th>P-Value</th>
                        <th>Corrected P-Value</th>
                    </tr>

                    <tr>
                        <td>Oxidative phosphorylation (domestic silkworm)</td>
                        <td>KEGG PATHWAY</td>
                        <td>bmor00190</td>
                        <td>64</td>
                        <td>104</td>
                        <td>0.0</td>
                        <td>0.0</td>
                    </tr>

                    <tr>
                        <td>Proteasome (domestic silkworm)</td>
                        <td>KEGG PATHWAY</td>
                        <td>bmor03050</td>
                        <td>32</td>
                        <td>35</td>
                        <td>0.0</td>
                        <td>0.0</td>
                    </tr>

                    <tr>
                        <td>Carbon metabolism (domestic silkworm)</td>
                        <td>KEGG PATHWAY</td>
                        <td>bmor01200</td>
                        <td>36</td>
                        <td>61</td>
                        <td>6.68376465285e-12</td>
                        <td>2.47299292155e-10</td>
                    </tr>

                    <tr>
                        <td>Citrate cycle (TCA cycle) (domestic silkworm)</td>
                        <td>KEGG PATHWAY</td>
                        <td>bmor00020</td>
                        <td>20</td>
                        <td>26</td>
                        <td>3.19392512438e-10</td>
                        <td>8.86314222015e-09</td>
                    </tr>

                </table>

                <p class="paragraph">结果表格详细内容如下：<br/>
                <p class="tremark">
                    (1) #Term：KEGG通路的描述信息。<br/>
                    (2) ID：KEGG数据库中通路唯一的编号信息。<br/>
                    (3) Sample number：该通路下差异基因的个数。<br/>
                    (4) Background number：该通路下注释基因的个数。<br/>
                    (5) P-value：富集分析统计学显著水平。<br/>
                    (6) Corrected P-value：矫正后的统计学显著水平，Corrected P-value &lt 0.05 该功能为富集项。</p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异基因KEGG富集分析">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>11.2　差异基因KEGG富集散点图</h4>
                <p class="paragraph">散点图是KEGG富集分析结果的图形化展示方式。在此图中，KEGG富集程度通过Rich factor、Qvalue和富集到此通路上的基因个数来衡量。其中Rich
                    factor指该pathway中富集到的差异基因个数与注释基因个数的比值。Rich
                    factor越大，表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue，Qvalue的取值范围为[0,1]，越接近于零，表示富集越显著。我们挑选了富集最显著的20条pathway条目在该图中进行展示，若富集的pathway条目不足20条，则全部展示。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/A.DEG_enriched_KEGG_pathway_scatterplot.png'
                                               alt='无显著富集结果'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/A.DEG_enriched_KEGG_pathway_scatterplot.png'><img
                                        src='./pictures/A.DEG_enriched_KEGG_pathway_scatterplot.png' alt='无显著富集结果'/></a>
                                </li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图11.2　差异基因KEGG富集散点图</p>
                <p class="premark">纵轴表示pathway名称，横轴表示Rich factor，点的大小表示此pathway中差异表达基因个数多少，而点的颜色对应于不同的Qvalue范围</p>
            </div>

            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="富集KEGG通路图">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h4>11.3 富集KEGG通路图</h4>
                <p class="paragraph">
                    将差异基因富集出的通路图进行展示，该通路图中，包含上调基因的KO节点标红色，包含下调基因的KO节点标绿色，包含上下调的标黄色。鼠标悬停于标记的KO节点，弹出差异基因细节框，标色同上，括号中数字为log2(Fold
                    change)。以上步骤可脱机实现，如连接互联网，点击各个节点，可以连接到KEGG官方数据库中各个KO的具体信息页。</p>

                <div class="albumSlider">
                    <div class="fullview"><img src='./pictures/bmor00190.png' alt='无显著富集结果'/></div>
                    <div class="slider">
                        <div class="button movebackward" title="向上滚动"></div>
                        <div class="imglistwrap">
                            <ul class="imglist">

                                <li><a id="example2" href='./pictures/bmor00190.png'><img
                                        src='./pictures/bmor00190.JPEG' alt='无显著富集结果'/></a></li>

                                <li><a id="example2" href='./pictures/bmor03050.png'><img
                                        src='./pictures/bmor03050.JPEG' alt='无显著富集结果'/></a></li>

                                <li><a id="example2" href='./pictures/bmor01200.png'><img
                                        src='./pictures/bmor01200.JPEG' alt='无显著富集结果'/></a></li>

                                <li><a id="example2" href='./pictures/bmor00020.png'><img
                                        src='./pictures/bmor00020.JPEG' alt='无显著富集结果'/></a></li>


                            </ul>
                        </div>
                        <div class="button moveforward" title="向下滚动"></div>
                    </div>
                </div>

                <p class="name_fig">图11.3 显著富集的KEGG pathway代谢通路图</p>
            </div>

            <!----------------------------------------- KEGG富集分析Q&A -------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异基因KEGG富集分析Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>

                <div class="QA">
                    <div><h4>11.4 差异基因KEGG富集分析Q&A </h4></div>
                    <table width=100% align="center" cellspacing="0" cellpadding="8">
                        <tr>
                            <td class="question"><b>问</b>：为什么编码同一个酶的基因，会有的上调有的下调？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：这些编号的基因存在着多个条目，也可能包含了一个家族的多个基因，它们间的调控机制可能尚不清楚，反映在图上会有部分上调，部分下调的现象，这是比较常见的现象。
                            </td>
                        </tr>
                    </table>
                </div>
            </div>


            <!------------------------------------- 差异基因蛋白互作网络分析 ---------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a>北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h3 id="14"><a name="蛋白互作网络分析">12　蛋白互作网络分析</a></h3>
                <h4>12.1 差异基因蛋白互作网络分析 </h4>
                <p class="paragraph">
                    我们主要应用STRING蛋白质互作数据库(http://string-db.org/)中的互作关系进行差异基因蛋白互作网络的分析。，针对于数据库中包含的物种，直接从数据库中提取出目标基因集(比如差异基因list)的互作关系来构建网络；针对于数据库中不包含的物种，我们首先将目标基因集中的序列应用blastx比对到string数据库中包含的参考物种的蛋白质序列上，并利用比对上的该参考物种的蛋白质互作关系构建互作网络。</p>
                <p class="paragraph">
                    我们提供差异基因蛋白互作网络数据文件，此文件可以直接导入Cytoscape软件进行可视化编辑。Cytoscape软件使用方法可参考我们提供的使用说明文档(CytoscapeQuickStart.pdf)。客户可以针对一些网络的拓扑属性进行统计和标示作图，比如：互作网络图中节点(node)的大小与此节点的度(degree)成正比，即与此节点相连的边越多，它的度越大，节点也就越大，这些节点在网络中可能处于较为核心的位置。节点的颜色与此节点的聚集系数(clustering
                    coefficient)相关，颜色梯度由绿到红对应聚集系数的值由低到高；聚集系数表示此节点的邻接点之间的连通性好坏，聚集系数值越高表示此节点的邻接点之间的连通性越好等等。根据不同的研究目的和需求，客户还可以在网络图中进行调整节点位置和颜色、标注表达量水平等操作。需要注意的是，通过blast比对得到的结果不能保证较好的准确性，这部分的工作仅供参考，辅助客户发现一些重要的候选基因。按我们提供的使用说明将文件导入Cytoscape软件后的效果图如下：</p></br>
                <p class="center">
                    <img class="wid2" src="images/PPI.png"/>
                </p>
                <p class="name_fig">图12　Cytoscape软件界面</p>
            </div>

            <!------------------------------------- 差异基因蛋白互作网络分析Q&A ---------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="差异基因蛋白互作网络分析Q&A">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>

                <div class="QA">
                    <div><h4>12.2 差异基因蛋白互作网络分析Q&A </h4></div>
                    <table width=100% align="center" cellspacing="0" cellpadding="8">
                        <tr>
                            <td class="question"><b>问</b>：PPI分析是用的什么软件？用的什么数据库？</td>
                        </tr>
                        <tr>
                            <td class="answer"><b>答</b>：通过blastx比对，在STRING数据库中找出这些差异基因间的互作关系，再将得到的互作数据导入Cytoscape软件实现互作网络的可视化。
                            </td>
                        </tr>
                        <tr>
                            <td class="question"><b>PPI分析相关名词的解释</b>:</td>
                        </tr>
                        <tr>
                            <td class="answer">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<b>聚集系数</b>：聚集系数:(clustering
                                coefficient)，聚集系数是图中的点倾向于集聚在一起的程度的一种度量。
                            </td>
                        </tr>
                    </table>
                </div>
            </div>


            <!-------------------------------------------- 附录 --------------------------------------------->
            <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                <a name="附录">北京诺禾致源生物信息科技有限公司</a>
            <hr/>
            </p><br/>
            <h2><a name="备注"> 四、备注</a></h2>
            <p class="paragraph">结果文件建议使用Excel或者EditPlus等专业文本编辑器打开。</p>
            <a name="文件目录列表"><h3 id="file_dir">1　文件目录列表</h3></a>
            <p class="paragraph">文件目录列表：<a href="../DirectoryTree.html" title="点击打开" target="_blank">html</a></p>

            <a name="软件列表"><h3 id="soft_list">2　软件列表</h3></a>
            <!------------------------------------------软件列表网页版开始------------------------------------------------------>
            <div id="page">
                <h2 align="center">有参转录组软件介绍</h2>
                <table width=80% align="center" id="software" cellspacing="0" cellpadding="5" class='tf2'>
                    <tr>
                        <th>Analysis</th>
                        <th>Software</th>
                        <th>Version</th>
                        <th>Remarks</th>
                    </tr>
                    <tr>
                        <td>Mapping</td>
                        <td>Tophat</td>
                        <td>v2.0.9</td>
                        <td>与参考基因组进行比对</td>
                    </tr>
                    <tr>
                        <td>基因表达水平分析</td>
                        <td>HTSeq</td>
                        <td>v0.6.1</td>
                        <td></td>
                    </tr>
                    <tr>
                        <td rowspan="2">可变剪切预测</td>
                        <td>cufflinks</td>
                        <td>2.1.1</td>
                        <td rowspan="2"></td>
                    </tr>
                    <tr>
                        <td>ASprofile</td>
                        <td>1.0</td>
                    </tr>
                    <tr>
                        <td>新转录本预测</td>
                        <td>cufflinks</td>
                        <td>2.1.1</td>
                        <td></td>
                    </tr>
                    <tr>
                        <td>SNP detection</td>
                        <td>GATK2</td>
                        <td>v2.6-5</td>
                        <td>
                        <td>
                    </tr>
                    <tr>
                        <td rowspan="3">差异表达分析</td>
                        <td>DEGSeq</td>
                        <td>1.12.0</td>
                        <td rowspan="3">对于有重复的样品使用DESeq，无重复的样品使用DEGSeq，特殊情况下使用edgeR</td>
                    </tr>
                    <tr>
                        <td>DESeq</td>
                        <td>1.10.1</td>
                    </tr>
                    <tr>
                        <td>edgeR</td>
                        <td>3.0.8</td>
                    </tr>
                    <tr>
                        <td>GO 富集</td>
                        <td>GOSeq，topGO,hmmscan</td>
                        <td>Release2.12</td>
                        <td>通过 hmmscan 得到新基因的GO注释文件</td>
                    </tr>
                    <tr>
                        <td>KEGG 富集</td>
                        <td>KOBAS</td>
                        <td>v2.0</td>
                        <td></td>
                    </tr>
                    <tr>
                        <td>蛋白互作分析</td>
                        <td>BLAST</td>
                        <td>v2.2.28</td>
                        <td>若物种存在于数据库string中，则直接提取相应的互作信息；若无，则提取近缘物种的互作信息</td>
                    </tr>
                </table>
                <div style="height:20px;"></div>


            </div>
            <!------------------------------------------软件列表网页版结束------------------------------------------------------>
            <p class="paragraph">软件列表：<a href="./Software.TransRef.pdf" title="点击打开" target="_blank">PDF</a></p>
            <a name="Methods英文版"><h3 id="methods_en">3　Methods英文版</h3></a>
            <p class="paragraph">Methods英文版：<a href="./Methods.TransRef.pdf" title="点击打开" target="_blank">PDF</a></p>
            <a name="Novofinder软件使用说明PDF版"><h3 id="novofinder">4　Novofinder软件使用说明PDF版</h3></a>
            <p class="paragraph">为了便于大家查询、整合RNA-seq分析中产生的多种多样的数据表格，我们新研发推出了试行版NovoFinder软件，欢迎大家使用！</p>
            <p class="paragraph">NovoFinder使用说明PDF版：<a href="./NovoFinder_manual.pdf" title="点击打开"
                                                       target="_blank">PDF</a></p>
            <h3 id="result_file_note"><a name="结果文件使用说明">5　结果文件使用说明</a></h3>
            <table width=95% align="center" id="result_note" cellspacing="0" cellpadding="5" class='tf2'>
                <tr>
                    <th colspan="3">结果文件解析说明：</th>
                </tr>
                <tr>
                    <td rowspan="2">*.tar.gz形式的压缩文件：</td>
                    <td>Unix/Linux/Mac用户</td>
                    <td>使用tar -zxvf *.tar.gz命令</td>
                </tr>
                <tr>
                    <td>Windows用户</td>
                    <td>使用解压缩软件如WinRAR、7-Zip等</td>
                </tr>
                <tr>
                    <td rowspan="2">*.gz形式的压缩文件：</td>
                    <td>Unix/Linux/Mac用户</td>
                    <td>使用命令gzip –d *.gz命令</td>
                </tr>
                <tr>
                    <td>Windows用户</td>
                    <td>使用解压缩软件如WinRAR、7-Zip等</td>
                </tr>
                <tr>
                    <td rowspan="2">*.zip形式的压缩文件：</td>
                    <td>Unix/Linux/Mac用户</td>
                    <td>使用命令unzip *.zip命令</td>
                </tr>
                <tr>
                    <td>Windows用户</td>
                    <td>使用解压缩软件如WinRAR、7-Zip等</td>
                </tr>
            </table>


            <p class="paragraph">更多解压命令可参见网络资料：<a href="http://www.php100.com/html/webkaifa/Linux/2009/1213/3652.html"
                                                  target="_blank">http://www.php100.com/html/webkaifa/Linux/2009/1213/3652.html。</a>
            </p>
            <br/>
            <table width=95% align="center" id="result_note" cellspacing="0" cellpadding="5" class='tf2'>
                <tr>
                    <th colspan="3">2. 结果文件查看说明:</th>
                </tr>
                <tr>
                    <td rowspan="2">*.fasta</td>
                    <td rowspan="2">
                        序列文件，fasta格式，一般为基因序列或者基因组序列。因文件一般较大，打开较为困难，为您提供了sampled*.fasta文件（部分*.fasta中的序列），方便您查看文件格式。
                    </td>
                    <td>unix/Linux/Mac用户使用 less 或 more 命令查看；</td>
                </tr>
                <tr>
                    <td>windows使用高级文本编辑器Editplus/Notepad++等查看。</td>
                </tr>
                <tr>
                    <td rowspan="2">*.fq/fastq</td>
                    <td rowspan="2">
                        序列文件，fastq格式，一般为reads序列；因文件一般较大，打开较为困难。为您提供了sampled*.fastq文件（部分*.fastq中的序列），方便您查看文件格式。
                    </td>
                    <td>unix/Linux/Mac用户使用 less 或 more 命令查看；</td>
                </tr>
                <tr>
                    <td>windows用户使用高级文本编辑器Editplus/Notepad++等查看。</td>
                </tr>
                <tr>
                    <td rowspan="2">*.xls,*.txt</td>
                    <td rowspan="2">结果数据表格文件，文件以制表符（Tab）分隔。</td>
                    <td>unix/Linux/Mac用户使用 less 或 more 命令查看；</td>
                </tr>
                <tr>
                    <td>windows用户使用高级文本编辑器Editplus/Notepad++ 等，也可以用Microsoft Excel打开。</td>
                </tr>
                <tr>
                    <td rowspan="2">*.png</td>
                    <td rowspan="2">结果图像文件，位图，无损压缩。</td>
                    <td>unix/Linux/Mac用户使用display命令打开。</td>
                </tr>
                <tr>
                    <td>windows用户可以使用图片浏览器打开，如photoshop等。</td>
                </tr>
                <tr>
                    <td rowspan="2">*.pdf</td>
                    <td rowspan="2">结果图像文件，矢量图，可以放大和缩小而不失真，方便用户查看和编辑处理，可使用Adobe Illustrator进行图片编辑，用于文章发表等。</td>
                    <td>unix/Linux用户使用evince命令打开。</td>
                </tr>
                <tr>
                    <td>windows/Mac用户可以使用Adobe Reader/福昕阅读器/网页浏览器等打开。</td>
                </tr>
            </table>
            <br/>
            <!-------------------------------------------- 参考文献 ------------------------------------------->
            <div id="page">
                <p class="head"><a href="#home" title="返回首页"><img class="logo" align="left" src="images/logo.png"/></a>
                    <a name="参考文献">北京诺禾致源生物信息科技有限公司</a>
                <hr/>
                </p><br/>
                <h2 id="参考文献"><a id="reference">五、参考文献</a></h2>
                <p class="ref">
                    Marioni, J. C., C. E. Mason, et al. (2008). RNA-seq: an assessment of technical reproducibility and
                    comparison with gene expression arrays. Genome research.<br/><br/>
                    Mortazavi, A., B. A. Williams, et al. (2008). Mapping and quantifying mammalian transcriptomes by
                    RNA-Seq. Nature methods.<br/><br/>
                    Wang, Z., M. Gerstein, et al. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature
                    Reviews Genetics.<br/><br/>


                    Langmead, B., Trapnell, C., Pop, M. & Salzberg, S.L. (2009). Ultrafast and memory-efficient
                    alignment of short DNA sequences to the human genome. Genome Biol.(Bowtie)<br/><br/>
                    Langmead, B. and S. L. Salzberg (2012). Fast gapped-read alignment with Bowtie 2. Nature
                    methods.(Bowtie 2)<br/><br/>
                    Trapnell, C., Pachter, L., and Salzberg, S.L. (2009). TopHat: discovering splice junctions with
                    RNA-Seq. Bioinformatics.(TopHat)<br/><br/>
                    Kim, D., G. Pertea, et al. (2012). TopHat2: Parallel mapping of transcriptomes to detect InDels,
                    gene fusions, and more.(TopHat2)<br/><br/>
                    <br/><br/>


                    Anders, S.(2010). HTSeq: Analysing high-throughput sequencing data with Python.(HTSeq)
                    Trapnell, C., A. Roberts, et al. (2012). Differential gene and transcript expression analysis of
                    RNA-seq experiments with TopHat and Cufflinks. nature protocols.(Tophat & Cufflinks)<br/><br/>
                    Trapnell, C. et al. (2010).Transcript assembly and quantification by RNA-seq reveals unannotated
                    transcripts and isoform switching during cell differentiation. Nat. Biotechnol.(Cufflinks)<br/><br/>
                    McKenna, A, Hanna, M, Banks, E, Sivachenko, A, Cibulskis, K, Kernytsky, A, Garimella, K, Altshuler,
                    D, Gabriel, S, Daly, M, DePristo, MA. 2010. The Genome Analysis Toolkit: a MapReduce framework for
                    analyzing next-generation DNA sequencing data. Genome Research.(GATK)<br/><br/>
                    Anders, S., and Huber, W. (2010). Differential expression analysis for sequence count data. Genome
                    Biol.(DESeq)<br/><br/>
                    Anders, S. and Huber, W. (2012). Differential expression of RNA-Seq data at the gene level-the DESeq
                    package.(DESeq)<br/><br/>
                    Wang, L.Feng, Z.Wang, X.Zhang, X. (2010). DEGseq: an R package for identifying differentially
                    expressed genes from RNA-seq data. Bioinformatics.(DEGseq)<br/><br/>
                    Wang, L.Feng, Z.Wang, X.Zhang, X. (2010). DEGseq: an R package for identifying differentially
                    expressed genes from RNA-seq data. Bioinformatics.(DEGseq)<br/><br/>
                    Robinson, M. D., McCarthy, D. J. & Smyth, G. K. edgeR: a Bioconductor package for differential
                    expression analysis of digital gene expression data. Bioinformatics.(edgeR)<br/><br/>


                    Young, M. D., Wakefield, M. J., Smyth, G. K., and Oshlack, A. (2010).Gene ontology analysis for
                    RNA-seq: accounting for selection bias. Genome Biology.(GOseq)<br/><br/>


                    Kanehisa, M., M. Araki, et al. (2008). KEGG for linking genomes to life and the environment. Nucleic
                    acids research.(KEGG)<br/><br/>
                    Mao, X., Cai, T., Olyarchuk, J.G., Wei, L. (2005). Automated genome annotation and pathway
                    identification using the KEGG Orthology (KO) as a controlled vocabulary. Bioinformatics.(KOBAS)<br/><br/>


                </p>
            </div>
            <!----------------------------------------------- End -------------------------------------------->
        </div>

        <script>


            /*滚*/
            $(window).scroll(function () {
                var initoffset_1 = $('#1').offset();
                var currenttop_1 = $(window).scrollTop() + 20;
                if (currenttop_1 > initoffset_1.top) {
                    if ($("#library_1").html() == "<b>+</b>") {
                        $("#library_1").html("<b>-</b>")
                        $("#library_1").parent().next().fadeIn("2500")
                    }
                    $(".lanmu-list a").removeClass("current")
                    $("#library_seq").addClass("current");
                }

                var initoffset_2 = $('#2').offset();
                var currenttop_2 = $(window).scrollTop() + 20;
                if (currenttop_2 > initoffset_2.top) {
                    if ($("#analyses_2").html() == "<b>+</b>") {
                        $("#analyses_2").html("<b>-</b>")
                        $("#analyses_2").parent().next().fadeIn("2500")
                    }
                    //$(".lanmu-content").css("display","block")
                    $(".lanmu-list a").removeClass("current")
                    $("#analyses_pip").addClass("current");
                }

                var initoffset_3 = $('#3').offset();
                var currenttop_3 = $(window).scrollTop() + 20;
                if (currenttop_3 > initoffset_3.top) {
                    if ($("#result_3").html() == "<b>+</b>") {
                        $("#result_3").html("<b>-</b>")
                        $("#result_3").parent().next().fadeIn("2500")
                    }
                    $(".lanmu-list a").removeClass("current")
                    $("#raw_data").addClass("current");
                }

                var initoffset_4 = $('#4').offset();
                var currenttop_4 = $(window).scrollTop() + 20;
                if (currenttop_4 > initoffset_4.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#QC").addClass("current");
                }


                var initoffset_5 = $('#5').offset();
                var currenttop_5 = $(window).scrollTop() + 20;
                if (currenttop_5 > initoffset_5.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#tophat").addClass("current");
                }


                var initoffset_6 = $('#6').offset();
                var currenttop_6 = $(window).scrollTop() + 20;
                if (currenttop_6 > initoffset_6.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#AS").addClass("current");
                }


                var initoffset_7 = $('#7').offset();
                var currenttop_7 = $(window).scrollTop() + 20;
                if (currenttop_7 > initoffset_7.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#Novel").addClass("current");
                }


                var initoffset_8 = $('#8').offset();
                var currenttop_8 = $(window).scrollTop() + 20;
                if (currenttop_8 > initoffset_8.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#SNP").addClass("current");
                }


                var initoffset_9 = $('#9').offset();
                var currenttop_9 = $(window).scrollTop() + 20;
                if (currenttop_9 > initoffset_9.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#gene_express").addClass("current");
                }


                var initoffset_10 = $('#10').offset();
                var currenttop_10 = $(window).scrollTop() + 20;
                if (currenttop_10 > initoffset_10.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#RNA-seq_QC").addClass("current");
                }


                var initoffset_11 = $('#11').offset();
                var currenttop_11 = $(window).scrollTop() + 20;
                if (currenttop_11 > initoffset_11.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#diff").addClass("current");
                }


                var initoffset_12 = $('#12').offset();
                var currenttop_12 = $(window).scrollTop() + 20;
                if (currenttop_12 > initoffset_12.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#diff_GO").addClass("current");
                }


                var initoffset_13 = $('#13').offset();
                var currenttop_13 = $(window).scrollTop() + 20;
                if (currenttop_13 > initoffset_13.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#diff_KEGG").addClass("current");
                }


                var initoffset_14 = $('#14').offset();
                var currenttop_14 = $(window).scrollTop() + 20;
                if (currenttop_14 > initoffset_14.top) {
                    $(".lanmu-list a").removeClass("current")
                    $("#PPI").addClass("current");
                }


                var initoffset_15 = $('#文件目录列表').offset();
                var currenttop_15 = $(window).scrollTop() + 20;
                if (currenttop_15 > initoffset_15.top) {
                    if ($("#notes_4").html() == "<b>+</b>") {
                        $("#notes_4").html("<b>-</b>")
                        $("#notes_4").parent().next().fadeIn("2500")
                    }
                    $(".lanmu-list a").removeClass("current")
                    $("#file_dir").addClass("current");
                }

                var initoffset_16 = $('#软件列表').offset();
                var currenttop_16 = $(window).scrollTop() + 20;
                if (currenttop_16 > initoffset_16.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#soft_list").addClass("current");
                }

                var initoffset_17 = $('#Methods英文版').offset();
                var currenttop_17 = $(window).scrollTop() + 20;
                if (currenttop_17 > initoffset_17.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#methods_en").addClass("current");
                }

                var initoffset_18 = $('#Novofinder').offset();
                var currenttop_18 = $(window).scrollTop() + 20;
                if (currenttop_18 > initoffset_18.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#novofinder").addClass("current");
                }
                var initoffset_19 = $('#结果文件使用说明').offset();
                var currenttop_19 = $(window).scrollTop() + 20;
                if (currenttop_19 > initoffset_19.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#result_file_note").addClass("current");
                }

                var initoffset_20 = $('#参考文献').offset();
                var currenttop_20 = $(window).scrollTop() + 20;
                if (currenttop_20 > initoffset_20.top) {

                    $(".lanmu-list a").removeClass("current")
                    $("#reference").addClass("current");
                }

            });
        </script>


</body>
</html>
